LLM 모델 종합 검증 보고서 (2026-03-28 ~ 03-29)
테스트 환경
- 서버: llama, AMD ROCm GPU, VRAM ~96GB
- llama.cpp server + --jinja
코딩 테스트 결과 (기본)
| 모델 |
간단코드 |
KIS |
속도 |
VRAM |
| Qwen2.5-7B |
3초 |
10초 |
? |
5GB |
| Qwen3.5-9B |
3.7초 |
54초 |
37.6 t/s |
5GB |
| Qwen3.5-27B-Claude |
13.6초 |
161초 |
12.5 t/s |
16GB |
| Qwen3-Coder-Next(Q6) |
12초 |
50초 |
~11 t/s |
68GB |
| Qwen3.5-122B-MoE |
6초 |
37.7초 |
36.5 t/s |
45GB |
확장 테스트 결과
복잡한 코딩 (multi-class module)
| 모델 |
결과 |
크기 |
시간 |
| 122B MoE |
✅ |
6327자, 203줄 |
44초 |
| 9B |
✅ |
281자, 13줄 |
6.6초 |
| 27B Claude |
✅ |
362자, 9줄 |
~30초 |
플랜/스케줄 작성
| 모델 |
결과 |
크기 |
시간 |
| 122B MoE |
✅ |
6196자, 202줄 |
53초 |
| 9B |
✅ |
693자, 22줄 |
~20초 |
| 27B Claude |
✅ |
1290자 |
~30초 |
뉴스 요약/분석
| 모델 |
결과 |
크기 |
시간 |
| 122B MoE |
✅ |
5827자, 117줄 |
49초 |
| 9B |
✅ |
1621자, 44줄 |
~30초 |
| 27B Claude |
⚠️ 타임아웃 |
- |
- |
Coder-Next Q2/Q3/Q4: 다운로드 진행 중, 테스트 대기
최종 추천
- 메인 코딩+분석: 122B MoE (품질 최고, 속도 빠름, 45GB)
- 보조/빠른작업: 9B (37 t/s, 5GB)
- 50GB 예산: 122B + 9B 조합