chore: update workspace config and memory

2026-03-30 19:30:25 +09:00
commit f3726b39d1
3479 changed files with 346874 additions and 0 deletions
--- a/memory/2026-03-28-llm-coding-test.md
+++ b/memory/2026-03-28-llm-coding-test.md
@@ -0,0 +1,95 @@
+# 2026-03-28 ~ 03-29 LLM 코딩 모델 종합 검증 결과
+
+## 테스트 환경
+- 서버: llama (100.64.0.11), AMD ROCm GPU, 총 VRAM ~96GB
+- llama.cpp server 모드, --jinja 플래그
+- 테스트 방법: 직접 HTTP 호출 (curl)
+- 테스트 시간: 2026-03-28 21:56 ~ 2026-03-29 02:35
+
+---
+
+## 최종 속도 비교표
+
+| 모델 | 크기 | VRAM | 간단코드 | KIS 시간 | Gen Speed | 코드 길이 | 툴호출 |
+|------|------|------|---------|----------|-----------|----------|--------|
+| Qwen2.5-7B | 4GB | 5GB | 3초 | 10초 | ? | 1330자 | ✅ |
+| **Qwen3.5-9B-Uncensored** | 5.6GB | 5GB | 3.7초 | 54초 | **37.6 t/s** | ? | ✅ |
+| Qwen3.5-27B-Claude-Opus | 16.5GB | 16GB | 13.6초 | 161초 | 12.6 t/s | ? | ✅ |
+| Qwen2.5-Coder-32B | 18GB | 18GB | ❌ | ❌ | - | - | ❌ |
+| Qwen3-Coder-Next (Q6_K_XL) | 76GB | 68GB | 12초 | 50초 | ~11 t/s | 2400자 | ✅ |
+| **Qwen3.5-122B-A10B-MoE (IQ3_XXS)** | 47GB | **45GB** | **6초** | **37.7초** | **36.5 t/s** | **4094자** | ✅ |
+
+---
+
+## 🏆 최종 추천 (50GB VRAM 예산)
+
+### 최적 조합: 122B MoE + 9B = 50GB
+- **메인 코딩 모델**: Qwen3.5-122B-MoE (45GB) — 품질 + 속도 모두 최고
+- **보조/빠른 작업**: Qwen3.5-9B (5GB) — 간단한 코드, 요약 등
+
+### 122B MoE의 장점
+- 속도 36 t/s (9B급, Coder-Next의 3배)
+- 코드 품질 최고 (4094자, 클래스 기반 구조)
+- VRAM 45GB (50GB 예산 내)
+- MoE: 122B 파라미터 중 추론 시 10B만 활성화
+
+### 대안 (VRAM 절약)
+- **Qwen3.5-27B-Claude (16GB)**: reasoning 품질 높지만 느림 (12 t/s)
+- **Qwen3.5-9B (5GB)**: 가장 빠르지만 품질 한계
+
+---
+
+## 테스트 완료 모델 상세
+
+### Qwen3-Coder-Next (Q6_K_XL) — 76GB ❌ VRAM 과다
+- 간단 코드: 12초, KIS: 50초, Gen: ~11 t/s
+- VRAM: 68GB (71%) — 다른 모델 동시 운영 불가
+- Verdict: 품질 좋지만 VRAM 효율 최하
+
+### Qwen2.5-Coder-32B (Q4_K_M) — 18GB ❌ 사용 불가
+- 툴호출 실패 (XML 형식), 서브에이전트 타임아웃
+- 모델 훈련 문제 (서버/템플릿 아님)
+- Verdict: 삭제됨
+
+### Qwen2.5-7B-Instruct (Q4_K_M) — 4GB
+- 간단 코드: 3초, KIS: 10초
+- Verdict: 빠르지만 코드 품질 보통
+
+### Qwen3.5-9B-Uncensored (Q4_K_M) — 5.6GB
+- 간단 코드: 3.7초, KIS: 54초, Gen: 37.6 t/s
+- Verdict: ✅ 빠르고 가벼움, 보조 모델로 최적
+
+### Qwen3.5-27B-Claude-Opus (Q4_K_M) — 16.5GB
+- 간단 코드: 13.6초, KIS: 161초, Gen: 12.6 t/s
+- Claude 추출이라 reasoning 품질 높음
+- Verdict: ✅ 품질 좋지만 느림
+
+### Qwen3.5-122B-A10B-MoE (IQ3_XXS) — 47GB
+- 간단 코드: 6초, KIS: 37.7초, Gen: 36.5 t/s
+- 코드 4094자 (최장, 클래스 기반 구조)
+- VRAM: 45GB (47%)
+- Verdict: ✅🏆 최고 성능/가성비
+
+---
+
+## 교훈
+- MoE 모델이 dense 모델 대비 속도/품질 모두 우수
+- 모델 크기 ≠ 속도: 122B MoE가 27B dense보다 3배 빠름
+- `hf` CLI JSON 토큰 문제 → `wget` + Bearer 토큰 사용
+- 툴호출 지원은 모델마다 다름: 같은 Qwen 계열이라도 나뉨
+- Coder-Next는 VRAM 효율 최악 — 대체재 필요
+
+---
+
+## 다운로드 파일 목록 (llama 서버)
+```
+~/llama.cpp/download/
+├── Qwen3.5-122B-MoE-IQ3_XXS.gguf (47GB) ← 최고 성능
+├── Qwen3.5-27B-Claude-Q4_K_M.gguf (16.5GB)
+├── Qwen3.5-9B-Uncensored-HauhauCS-Q4_K_M.gguf (5.6GB)
+├── Qwen2.5-7B-Instruct-Q4_K_M.gguf (4.4GB)
+├── Qwen3-8B-Q4_K_M.gguf (4.7GB) — 라우터용
+├── Qwen2.5-Coder-7B-Instruct-Q4_K_M.gguf (4.4GB)
+├── Qwen3-Coder-Next-UD-Q6_K_XL-* (76GB) — VRAM 과다
+└── ...
+```