chore: update workspace config and memory

2026-03-30 19:30:25 +09:00
commit f3726b39d1
3479 changed files with 346874 additions and 0 deletions
--- a/benchmark_model.md
+++ b/benchmark_model.md
@@ -0,0 +1,189 @@
+# benchmark_model.md
+## 모델 벤치마크 및 검토 기록
+## 작성: 2026-03-29
+
+---
+
+# 1. 테스트 환경
+- 서버: llama (AMD ROCm GPU, VRAM ~96GB)
+- llama.cpp server + --jinja
+- 테스트 방식: 직접 HTTP API 호출 / 실제 로컬 서버 로드
+- 목적: 멀티에이전트 상시 운용 모델 + 특수 작업 모델 + 비전 모델 선별
+
+---
+
+# 2. 코딩/분석 계열 벤치마크
+
+## 2.1 기본 비교
+| 모델 | 크기 | VRAM | 간단코드 | KIS 작업 | 생성 속도 | 비고 |
+|------|------|------|---------|----------|----------|------|
+| Qwen2.5-7B | 4GB | 5GB | 3초 | 10초 | ? | 구형 |
+| Qwen3.5-9B-Uncensored-HauhauCS | 5.6GB | 5GB | 3.7초 | 54초 | 37.6 t/s | 가벼운 보조 모델 |
+| Qwen3.5-27B-Claude-Opus | 16.5GB | 16GB | 13.6초 | 161초 | 12.6 t/s | 품질 좋지만 느림 |
+| Qwen2.5-Coder-32B | 18GB | 18GB | ❌ | ❌ | - | 툴호출 불가 |
+| Qwen3-Coder-Next Q6 | 76GB | 68GB | 12초 | 50초 | ~11 t/s | VRAM 과다 |
+| **Qwen3.5-122B-A10B-MoE-IQ3_XXS** | 47GB | **45GB** | **6초** | **37.7초** | **36.5 t/s** | 최고 성능 |
+
+## 2.2 확장 테스트
+### 복잡 코딩
+| 모델 | 결과 | 산출물 | 시간 |
+|------|------|--------|------|
+| 122B MoE | ✅ | 6327자 / 203줄 | 44초 |
+| 9B | ✅ | 281자 / 13줄 | 6.6초 |
+| 27B Claude | ✅ | 362자 / 9줄 | ~30초 |
+
+### 플랜/스케줄 작성
+| 모델 | 결과 | 산출물 | 시간 |
+|------|------|--------|------|
+| 122B MoE | ✅ | 6196자 / 202줄 | 53초 |
+| 9B | ✅ | 693자 / 22줄 | ~20초 |
+| 27B Claude | ✅ | 1290자 | ~30초 |
+
+### 뉴스 분석
+| 모델 | 결과 | 산출물 | 시간 |
+|------|------|--------|------|
+| 122B MoE | ✅ | 5827자 / 117줄 | 49초 |
+| 9B | ✅ | 1621자 / 44줄 | ~30초 |
+| 27B Claude | ⚠️ | 타임아웃 | - |
+
+## 2.3 해석
+### 122B MoE
+- 장점:
+  - 속도와 품질이 동시에 높음
+  - 복잡 코드 / 긴 플랜 / 장문 분석에 강함
+  - 출력 구조가 가장 풍부함
+- 단점:
+  - VRAM 45GB로 상시 운용 부담 큼
+- 최종 판단:
+  - **특수 작업용 수동 로드 모델**
+  - 상시 모델은 아님
+
+### Qwen3-Coder-Next-Q3_K_M
+- 장점:
+  - 코딩 전용으로 빠르고 안정적
+  - 상시 실행기 용도로 적합
+- 단점:
+  - 경우에 따라 품질 하한선이 낮을 수 있음
+- 최종 판단:
+  - **Coder 메인 채택**
+
+### Qwen3.5-9B-Uncensored-HauhauCS
+- 장점:
+  - 매우 가볍고 빠름
+  - QA/보조 실행기로 적합
+- 단점:
+  - 장문/복잡 구조 생성은 약함
+- 최종 판단:
+  - **QA 전용 채택**
+
+### Qwen2.5-Coder-32B
+- 문제:
+  - 툴호출 실패
+  - 실사용 불가
+- 최종 판단:
+  - **삭제**
+
+### Qwen3-Coder-Next Q6
+- 문제:
+  - VRAM 68GB 사용
+  - 상시 멀티모델 구조 불가
+- 최종 판단:
+  - **삭제**
+
+---
+
+# 3. 비전 모델 벤치마크
+
+## 3.1 후보
+- Qwen3-VL-8B-Instruct
+- HauhauCS Qwen3VL-8B-Uncensored
+- moondream2
+- (검토 후 제외) 4B/2B 계열
+
+## 3.2 1차 텍스트 벤치
+| 모델 | VRAM | 응답 | 속도 |
+|------|------|------|------|
+| Qwen3-VL-8B-Instruct | 11% | OK | 52.7 tok/s |
+| **HauhauCS Qwen3VL-8B-Uncensored** | **8%** | OK | **81.9 tok/s** |
+| moondream2 | 7% | 빈 문자열 | 불안정 |
+
+## 3.3 실전 OCR 테스트
+테스트 이미지: 전주번호/전봇대 표찰 사진
+
+### HauhauCS Qwen3VL-8B-Uncensored 결과
+- 추출 결과:
+  - 위험
+  - 1658S
+  - 223
+  - 가수원선
+  - 85
+  - R63L13
+  - R7
+  - 1404
+  - 14M
+  - (중동본부)
+  - 0
+  - 123
+- 메인 전주번호 추정: **1658S**
+- 응답시간: **2.15초**
+
+### Qwen3-VL-8B-Instruct
+- 로드/텍스트 응답은 성공
+- OCR 실전 비교는 HauhauCS보다 우세한 근거 확보 실패
+- 속도/VRAM 면에서 열세
+
+### moondream2
+- 기본 텍스트 응답부터 불안정
+- 메인 비전 후보 탈락
+
+## 3.4 해석
+### HauhauCS Qwen3VL-8B-Uncensored
+- 장점:
+  - 공식판보다 더 빠름
+  - 더 적은 VRAM 사용
+  - 실제 OCR 결과 usable
+- 최종 판단:
+  - **비전 메인 채택**
+
+### Qwen3-VL-8B-Instruct
+- 장점:
+  - 공식판, 비교 기준으로 의미 있음
+- 단점:
+  - HauhauCS 대비 속도/VRAM 열세
+- 최종 판단:
+  - **미채택 / 비교용 종료 후 삭제**
+
+### moondream2
+- 최종 판단:
+  - **탈락 / 삭제**
+
+---
+
+# 4. 최종 채택 모델
+| 역할 | 모델 | 포트 | 컨텍스트 | 비고 |
+|------|------|------|----------|------|
+| 메인/플래너/분석 | Qwen3.5-35B-MoE-Claude-Q4_K_M | 8080 | 262K | 상시 |
+| Coder | Qwen3-Coder-Next-Q3_K_M | 8081 | 64K | 상시 |
+| QA | Qwen3.5-9B-Uncensored-HauhauCS-Q4_K_M | 8082 | 64K | 상시 |
+| 특수 작업 | Qwen3.5-122B-MoE-IQ3_XXS | 8083 | 32K | 수동 로드 |
+| Vision | Qwen3VL-8B-Uncensored-Q4_K_M | 8084 | 32K | 상시 |
+
+---
+
+# 5. 폐기/미채택 모델 요약
+- Qwen2.5-Coder-32B → 툴호출 불가
+- Qwen3-Coder-Next Q6_K_XL → VRAM 과다
+- Qwen3-VL-8B-Instruct → 비전 비교에서 밀림
+- moondream2 → 기본 응답 불안정
+- 4B/2B 비전 계열 → 실사용 하한선 미달 우려로 제외
+
+---
+
+# 6. 운영 메모
+- 122B는 성능 부족으로 빠진 것이 아니라 **상시 운용 효율 때문에 특수 작업용으로 이동**함.
+- Coder 품질 미달 / QA 반복 실패 시:
+  1. Coder 결과 drop
+  2. Coder + Vision off 권장
+  3. 122B 수동 로드
+  4. 결과 생성 후 QA 검증
+  5. 작업 종료 시 122B drop, Coder + Vision 재실행