2026-03-28 ~ 03-29 LLM 코딩 모델 종합 검증 결과

테스트 환경

서버: llama (100.64.0.11), AMD ROCm GPU, 총 VRAM ~96GB
llama.cpp server 모드, --jinja 플래그
테스트 방법: 직접 HTTP 호출 (curl)
테스트 시간: 2026-03-28 21:56 ~ 2026-03-29 02:35

최종 속도 비교표

모델	크기	VRAM	간단코드	KIS 시간	Gen Speed	코드 길이	툴호출
Qwen2.5-7B	4GB	5GB	3초	10초	?	1330자	✅
Qwen3.5-9B-Uncensored	5.6GB	5GB	3.7초	54초	37.6 t/s	?	✅
Qwen3.5-27B-Claude-Opus	16.5GB	16GB	13.6초	161초	12.6 t/s	?	✅
Qwen2.5-Coder-32B	18GB	18GB	❌	❌	-	-	❌
Qwen3-Coder-Next (Q6_K_XL)	76GB	68GB	12초	50초	~11 t/s	2400자	✅
Qwen3.5-122B-A10B-MoE (IQ3_XXS)	47GB	45GB	6초	37.7초	36.5 t/s	4094자	✅

🏆 최종 추천 (50GB VRAM 예산)

최적 조합: 122B MoE + 9B = 50GB

메인 코딩 모델: Qwen3.5-122B-MoE (45GB) — 품질 + 속도 모두 최고
보조/빠른 작업: Qwen3.5-9B (5GB) — 간단한 코드, 요약 등

122B MoE의 장점

속도 36 t/s (9B급, Coder-Next의 3배)
코드 품질 최고 (4094자, 클래스 기반 구조)
VRAM 45GB (50GB 예산 내)
MoE: 122B 파라미터 중 추론 시 10B만 활성화

대안 (VRAM 절약)

Qwen3.5-27B-Claude (16GB): reasoning 품질 높지만 느림 (12 t/s)
Qwen3.5-9B (5GB): 가장 빠르지만 품질 한계

테스트 완료 모델 상세

Qwen3-Coder-Next (Q6_K_XL) — 76GB ❌ VRAM 과다

간단 코드: 12초, KIS: 50초, Gen: ~11 t/s
VRAM: 68GB (71%) — 다른 모델 동시 운영 불가
Verdict: 품질 좋지만 VRAM 효율 최하

Qwen2.5-Coder-32B (Q4_K_M) — 18GB ❌ 사용 불가

툴호출 실패 (XML 형식), 서브에이전트 타임아웃
모델 훈련 문제 (서버/템플릿 아님)
Verdict: 삭제됨

Qwen2.5-7B-Instruct (Q4_K_M) — 4GB

간단 코드: 3초, KIS: 10초
Verdict: 빠르지만 코드 품질 보통

Qwen3.5-9B-Uncensored (Q4_K_M) — 5.6GB

간단 코드: 3.7초, KIS: 54초, Gen: 37.6 t/s
Verdict: ✅ 빠르고 가벼움, 보조 모델로 최적

Qwen3.5-27B-Claude-Opus (Q4_K_M) — 16.5GB

간단 코드: 13.6초, KIS: 161초, Gen: 12.6 t/s
Claude 추출이라 reasoning 품질 높음
Verdict: ✅ 품질 좋지만 느림

Qwen3.5-122B-A10B-MoE (IQ3_XXS) — 47GB

간단 코드: 6초, KIS: 37.7초, Gen: 36.5 t/s
코드 4094자 (최장, 클래스 기반 구조)
VRAM: 45GB (47%)
Verdict: ✅🏆 최고 성능/가성비

교훈

MoE 모델이 dense 모델 대비 속도/품질 모두 우수
모델 크기 ≠ 속도: 122B MoE가 27B dense보다 3배 빠름
hf CLI JSON 토큰 문제 → wget + Bearer 토큰 사용
툴호출 지원은 모델마다 다름: 같은 Qwen 계열이라도 나뉨
Coder-Next는 VRAM 효율 최악 — 대체재 필요

다운로드 파일 목록 (llama 서버)

~/llama.cpp/download/
├── Qwen3.5-122B-MoE-IQ3_XXS.gguf (47GB) ← 최고 성능
├── Qwen3.5-27B-Claude-Q4_K_M.gguf (16.5GB)
├── Qwen3.5-9B-Uncensored-HauhauCS-Q4_K_M.gguf (5.6GB)
├── Qwen2.5-7B-Instruct-Q4_K_M.gguf (4.4GB)
├── Qwen3-8B-Q4_K_M.gguf (4.7GB) — 라우터용
├── Qwen2.5-Coder-7B-Instruct-Q4_K_M.gguf (4.4GB)
├── Qwen3-Coder-Next-UD-Q6_K_XL-* (76GB) — VRAM 과다
└── ...

3.5 KiB Raw Permalink Blame History

2026-03-28 ~ 03-29 LLM 코딩 모델 종합 검증 결과

테스트 환경

최종 속도 비교표

🏆 최종 추천 (50GB VRAM 예산)

최적 조합: 122B MoE + 9B = 50GB

122B MoE의 장점

대안 (VRAM 절약)

테스트 완료 모델 상세

Qwen3-Coder-Next (Q6_K_XL) — 76GB ❌ VRAM 과다

Qwen2.5-Coder-32B (Q4_K_M) — 18GB ❌ 사용 불가

Qwen2.5-7B-Instruct (Q4_K_M) — 4GB

Qwen3.5-9B-Uncensored (Q4_K_M) — 5.6GB

Qwen3.5-27B-Claude-Opus (Q4_K_M) — 16.5GB

Qwen3.5-122B-A10B-MoE (IQ3_XXS) — 47GB

교훈

다운로드 파일 목록 (llama 서버)

3.5 KiB

Raw Permalink Blame History