# 2026-03-28 ~ 03-29 LLM 코딩 모델 종합 검증 결과

## 테스트 환경
- 서버: llama (100.64.0.11), AMD ROCm GPU, 총 VRAM ~96GB
- llama.cpp server 모드, --jinja 플래그
- 테스트 방법: 직접 HTTP 호출 (curl)
- 테스트 시간: 2026-03-28 21:56 ~ 2026-03-29 02:35

---

## 최종 속도 비교표

| 모델 | 크기 | VRAM | 간단코드 | KIS 시간 | Gen Speed | 코드 길이 | 툴호출 |
|------|------|------|---------|----------|-----------|----------|--------|
| Qwen2.5-7B | 4GB | 5GB | 3초 | 10초 | ? | 1330자 | ✅ |
| **Qwen3.5-9B-Uncensored** | 5.6GB | 5GB | 3.7초 | 54초 | **37.6 t/s** | ? | ✅ |
| Qwen3.5-27B-Claude-Opus | 16.5GB | 16GB | 13.6초 | 161초 | 12.6 t/s | ? | ✅ |
| Qwen2.5-Coder-32B | 18GB | 18GB | ❌ | ❌ | - | - | ❌ |
| Qwen3-Coder-Next (Q6_K_XL) | 76GB | 68GB | 12초 | 50초 | ~11 t/s | 2400자 | ✅ |
| **Qwen3.5-122B-A10B-MoE (IQ3_XXS)** | 47GB | **45GB** | **6초** | **37.7초** | **36.5 t/s** | **4094자** | ✅ |

---

## 🏆 최종 추천 (50GB VRAM 예산)

### 최적 조합: 122B MoE + 9B = 50GB
- **메인 코딩 모델**: Qwen3.5-122B-MoE (45GB) — 품질 + 속도 모두 최고
- **보조/빠른 작업**: Qwen3.5-9B (5GB) — 간단한 코드, 요약 등

### 122B MoE의 장점
- 속도 36 t/s (9B급, Coder-Next의 3배)
- 코드 품질 최고 (4094자, 클래스 기반 구조)
- VRAM 45GB (50GB 예산 내)
- MoE: 122B 파라미터 중 추론 시 10B만 활성화

### 대안 (VRAM 절약)
- **Qwen3.5-27B-Claude (16GB)**: reasoning 품질 높지만 느림 (12 t/s)
- **Qwen3.5-9B (5GB)**: 가장 빠르지만 품질 한계

---

## 테스트 완료 모델 상세

### Qwen3-Coder-Next (Q6_K_XL) — 76GB ❌ VRAM 과다
- 간단 코드: 12초, KIS: 50초, Gen: ~11 t/s
- VRAM: 68GB (71%) — 다른 모델 동시 운영 불가
- Verdict: 품질 좋지만 VRAM 효율 최하

### Qwen2.5-Coder-32B (Q4_K_M) — 18GB ❌ 사용 불가
- 툴호출 실패 (XML 형식), 서브에이전트 타임아웃
- 모델 훈련 문제 (서버/템플릿 아님)
- Verdict: 삭제됨

### Qwen2.5-7B-Instruct (Q4_K_M) — 4GB
- 간단 코드: 3초, KIS: 10초
- Verdict: 빠르지만 코드 품질 보통

### Qwen3.5-9B-Uncensored (Q4_K_M) — 5.6GB
- 간단 코드: 3.7초, KIS: 54초, Gen: 37.6 t/s
- Verdict: ✅ 빠르고 가벼움, 보조 모델로 최적

### Qwen3.5-27B-Claude-Opus (Q4_K_M) — 16.5GB
- 간단 코드: 13.6초, KIS: 161초, Gen: 12.6 t/s
- Claude 추출이라 reasoning 품질 높음
- Verdict: ✅ 품질 좋지만 느림

### Qwen3.5-122B-A10B-MoE (IQ3_XXS) — 47GB
- 간단 코드: 6초, KIS: 37.7초, Gen: 36.5 t/s
- 코드 4094자 (최장, 클래스 기반 구조)
- VRAM: 45GB (47%)
- Verdict: ✅🏆 최고 성능/가성비

---

## 교훈
- MoE 모델이 dense 모델 대비 속도/품질 모두 우수
- 모델 크기 ≠ 속도: 122B MoE가 27B dense보다 3배 빠름
- `hf` CLI JSON 토큰 문제 → `wget` + Bearer 토큰 사용
- 툴호출 지원은 모델마다 다름: 같은 Qwen 계열이라도 나뉨
- Coder-Next는 VRAM 효율 최악 — 대체재 필요

---

## 다운로드 파일 목록 (llama 서버)
```
~/llama.cpp/download/
├── Qwen3.5-122B-MoE-IQ3_XXS.gguf (47GB) ← 최고 성능
├── Qwen3.5-27B-Claude-Q4_K_M.gguf (16.5GB)
├── Qwen3.5-9B-Uncensored-HauhauCS-Q4_K_M.gguf (5.6GB)
├── Qwen2.5-7B-Instruct-Q4_K_M.gguf (4.4GB)
├── Qwen3-8B-Q4_K_M.gguf (4.7GB) — 라우터용
├── Qwen2.5-Coder-7B-Instruct-Q4_K_M.gguf (4.4GB)
├── Qwen3-Coder-Next-UD-Q6_K_XL-* (76GB) — VRAM 과다
└── ...
```