Files
backup_openclaw/memory/2026-03-28-llm-coding-test.md
2026-03-30 19:30:25 +09:00

3.5 KiB

2026-03-28 ~ 03-29 LLM 코딩 모델 종합 검증 결과

테스트 환경

  • 서버: llama (100.64.0.11), AMD ROCm GPU, 총 VRAM ~96GB
  • llama.cpp server 모드, --jinja 플래그
  • 테스트 방법: 직접 HTTP 호출 (curl)
  • 테스트 시간: 2026-03-28 21:56 ~ 2026-03-29 02:35

최종 속도 비교표

모델 크기 VRAM 간단코드 KIS 시간 Gen Speed 코드 길이 툴호출
Qwen2.5-7B 4GB 5GB 3초 10초 ? 1330자
Qwen3.5-9B-Uncensored 5.6GB 5GB 3.7초 54초 37.6 t/s ?
Qwen3.5-27B-Claude-Opus 16.5GB 16GB 13.6초 161초 12.6 t/s ?
Qwen2.5-Coder-32B 18GB 18GB - -
Qwen3-Coder-Next (Q6_K_XL) 76GB 68GB 12초 50초 ~11 t/s 2400자
Qwen3.5-122B-A10B-MoE (IQ3_XXS) 47GB 45GB 6초 37.7초 36.5 t/s 4094자

🏆 최종 추천 (50GB VRAM 예산)

최적 조합: 122B MoE + 9B = 50GB

  • 메인 코딩 모델: Qwen3.5-122B-MoE (45GB) — 품질 + 속도 모두 최고
  • 보조/빠른 작업: Qwen3.5-9B (5GB) — 간단한 코드, 요약 등

122B MoE의 장점

  • 속도 36 t/s (9B급, Coder-Next의 3배)
  • 코드 품질 최고 (4094자, 클래스 기반 구조)
  • VRAM 45GB (50GB 예산 내)
  • MoE: 122B 파라미터 중 추론 시 10B만 활성화

대안 (VRAM 절약)

  • Qwen3.5-27B-Claude (16GB): reasoning 품질 높지만 느림 (12 t/s)
  • Qwen3.5-9B (5GB): 가장 빠르지만 품질 한계

테스트 완료 모델 상세

Qwen3-Coder-Next (Q6_K_XL) — 76GB VRAM 과다

  • 간단 코드: 12초, KIS: 50초, Gen: ~11 t/s
  • VRAM: 68GB (71%) — 다른 모델 동시 운영 불가
  • Verdict: 품질 좋지만 VRAM 효율 최하

Qwen2.5-Coder-32B (Q4_K_M) — 18GB 사용 불가

  • 툴호출 실패 (XML 형식), 서브에이전트 타임아웃
  • 모델 훈련 문제 (서버/템플릿 아님)
  • Verdict: 삭제됨

Qwen2.5-7B-Instruct (Q4_K_M) — 4GB

  • 간단 코드: 3초, KIS: 10초
  • Verdict: 빠르지만 코드 품질 보통

Qwen3.5-9B-Uncensored (Q4_K_M) — 5.6GB

  • 간단 코드: 3.7초, KIS: 54초, Gen: 37.6 t/s
  • Verdict: 빠르고 가벼움, 보조 모델로 최적

Qwen3.5-27B-Claude-Opus (Q4_K_M) — 16.5GB

  • 간단 코드: 13.6초, KIS: 161초, Gen: 12.6 t/s
  • Claude 추출이라 reasoning 품질 높음
  • Verdict: 품질 좋지만 느림

Qwen3.5-122B-A10B-MoE (IQ3_XXS) — 47GB

  • 간단 코드: 6초, KIS: 37.7초, Gen: 36.5 t/s
  • 코드 4094자 (최장, 클래스 기반 구조)
  • VRAM: 45GB (47%)
  • Verdict: 🏆 최고 성능/가성비

교훈

  • MoE 모델이 dense 모델 대비 속도/품질 모두 우수
  • 모델 크기 ≠ 속도: 122B MoE가 27B dense보다 3배 빠름
  • hf CLI JSON 토큰 문제 → wget + Bearer 토큰 사용
  • 툴호출 지원은 모델마다 다름: 같은 Qwen 계열이라도 나뉨
  • Coder-Next는 VRAM 효율 최악 — 대체재 필요

다운로드 파일 목록 (llama 서버)

~/llama.cpp/download/
├── Qwen3.5-122B-MoE-IQ3_XXS.gguf (47GB) ← 최고 성능
├── Qwen3.5-27B-Claude-Q4_K_M.gguf (16.5GB)
├── Qwen3.5-9B-Uncensored-HauhauCS-Q4_K_M.gguf (5.6GB)
├── Qwen2.5-7B-Instruct-Q4_K_M.gguf (4.4GB)
├── Qwen3-8B-Q4_K_M.gguf (4.7GB) — 라우터용
├── Qwen2.5-Coder-7B-Instruct-Q4_K_M.gguf (4.4GB)
├── Qwen3-Coder-Next-UD-Q6_K_XL-* (76GB) — VRAM 과다
└── ...