# 2026-03-28 ~ 03-29 LLM 코딩 모델 종합 검증 결과 ## 테스트 환경 - 서버: llama (100.64.0.11), AMD ROCm GPU, 총 VRAM ~96GB - llama.cpp server 모드, --jinja 플래그 - 테스트 방법: 직접 HTTP 호출 (curl) - 테스트 시간: 2026-03-28 21:56 ~ 2026-03-29 02:35 --- ## 최종 속도 비교표 | 모델 | 크기 | VRAM | 간단코드 | KIS 시간 | Gen Speed | 코드 길이 | 툴호출 | |------|------|------|---------|----------|-----------|----------|--------| | Qwen2.5-7B | 4GB | 5GB | 3초 | 10초 | ? | 1330자 | ✅ | | **Qwen3.5-9B-Uncensored** | 5.6GB | 5GB | 3.7초 | 54초 | **37.6 t/s** | ? | ✅ | | Qwen3.5-27B-Claude-Opus | 16.5GB | 16GB | 13.6초 | 161초 | 12.6 t/s | ? | ✅ | | Qwen2.5-Coder-32B | 18GB | 18GB | ❌ | ❌ | - | - | ❌ | | Qwen3-Coder-Next (Q6_K_XL) | 76GB | 68GB | 12초 | 50초 | ~11 t/s | 2400자 | ✅ | | **Qwen3.5-122B-A10B-MoE (IQ3_XXS)** | 47GB | **45GB** | **6초** | **37.7초** | **36.5 t/s** | **4094자** | ✅ | --- ## 🏆 최종 추천 (50GB VRAM 예산) ### 최적 조합: 122B MoE + 9B = 50GB - **메인 코딩 모델**: Qwen3.5-122B-MoE (45GB) — 품질 + 속도 모두 최고 - **보조/빠른 작업**: Qwen3.5-9B (5GB) — 간단한 코드, 요약 등 ### 122B MoE의 장점 - 속도 36 t/s (9B급, Coder-Next의 3배) - 코드 품질 최고 (4094자, 클래스 기반 구조) - VRAM 45GB (50GB 예산 내) - MoE: 122B 파라미터 중 추론 시 10B만 활성화 ### 대안 (VRAM 절약) - **Qwen3.5-27B-Claude (16GB)**: reasoning 품질 높지만 느림 (12 t/s) - **Qwen3.5-9B (5GB)**: 가장 빠르지만 품질 한계 --- ## 테스트 완료 모델 상세 ### Qwen3-Coder-Next (Q6_K_XL) — 76GB ❌ VRAM 과다 - 간단 코드: 12초, KIS: 50초, Gen: ~11 t/s - VRAM: 68GB (71%) — 다른 모델 동시 운영 불가 - Verdict: 품질 좋지만 VRAM 효율 최하 ### Qwen2.5-Coder-32B (Q4_K_M) — 18GB ❌ 사용 불가 - 툴호출 실패 (XML 형식), 서브에이전트 타임아웃 - 모델 훈련 문제 (서버/템플릿 아님) - Verdict: 삭제됨 ### Qwen2.5-7B-Instruct (Q4_K_M) — 4GB - 간단 코드: 3초, KIS: 10초 - Verdict: 빠르지만 코드 품질 보통 ### Qwen3.5-9B-Uncensored (Q4_K_M) — 5.6GB - 간단 코드: 3.7초, KIS: 54초, Gen: 37.6 t/s - Verdict: ✅ 빠르고 가벼움, 보조 모델로 최적 ### Qwen3.5-27B-Claude-Opus (Q4_K_M) — 16.5GB - 간단 코드: 13.6초, KIS: 161초, Gen: 12.6 t/s - Claude 추출이라 reasoning 품질 높음 - Verdict: ✅ 품질 좋지만 느림 ### Qwen3.5-122B-A10B-MoE (IQ3_XXS) — 47GB - 간단 코드: 6초, KIS: 37.7초, Gen: 36.5 t/s - 코드 4094자 (최장, 클래스 기반 구조) - VRAM: 45GB (47%) - Verdict: ✅🏆 최고 성능/가성비 --- ## 교훈 - MoE 모델이 dense 모델 대비 속도/품질 모두 우수 - 모델 크기 ≠ 속도: 122B MoE가 27B dense보다 3배 빠름 - `hf` CLI JSON 토큰 문제 → `wget` + Bearer 토큰 사용 - 툴호출 지원은 모델마다 다름: 같은 Qwen 계열이라도 나뉨 - Coder-Next는 VRAM 효율 최악 — 대체재 필요 --- ## 다운로드 파일 목록 (llama 서버) ``` ~/llama.cpp/download/ ├── Qwen3.5-122B-MoE-IQ3_XXS.gguf (47GB) ← 최고 성능 ├── Qwen3.5-27B-Claude-Q4_K_M.gguf (16.5GB) ├── Qwen3.5-9B-Uncensored-HauhauCS-Q4_K_M.gguf (5.6GB) ├── Qwen2.5-7B-Instruct-Q4_K_M.gguf (4.4GB) ├── Qwen3-8B-Q4_K_M.gguf (4.7GB) — 라우터용 ├── Qwen2.5-Coder-7B-Instruct-Q4_K_M.gguf (4.4GB) ├── Qwen3-Coder-Next-UD-Q6_K_XL-* (76GB) — VRAM 과다 └── ... ```