Files
backup_openclaw/benchmark_model.md
2026-03-30 19:30:25 +09:00

5.2 KiB

benchmark_model.md

모델 벤치마크 및 검토 기록

작성: 2026-03-29


1. 테스트 환경

  • 서버: llama (AMD ROCm GPU, VRAM ~96GB)
  • llama.cpp server + --jinja
  • 테스트 방식: 직접 HTTP API 호출 / 실제 로컬 서버 로드
  • 목적: 멀티에이전트 상시 운용 모델 + 특수 작업 모델 + 비전 모델 선별

2. 코딩/분석 계열 벤치마크

2.1 기본 비교

모델 크기 VRAM 간단코드 KIS 작업 생성 속도 비고
Qwen2.5-7B 4GB 5GB 3초 10초 ? 구형
Qwen3.5-9B-Uncensored-HauhauCS 5.6GB 5GB 3.7초 54초 37.6 t/s 가벼운 보조 모델
Qwen3.5-27B-Claude-Opus 16.5GB 16GB 13.6초 161초 12.6 t/s 품질 좋지만 느림
Qwen2.5-Coder-32B 18GB 18GB - 툴호출 불가
Qwen3-Coder-Next Q6 76GB 68GB 12초 50초 ~11 t/s VRAM 과다
Qwen3.5-122B-A10B-MoE-IQ3_XXS 47GB 45GB 6초 37.7초 36.5 t/s 최고 성능

2.2 확장 테스트

복잡 코딩

모델 결과 산출물 시간
122B MoE 6327자 / 203줄 44초
9B 281자 / 13줄 6.6초
27B Claude 362자 / 9줄 ~30초

플랜/스케줄 작성

모델 결과 산출물 시간
122B MoE 6196자 / 202줄 53초
9B 693자 / 22줄 ~20초
27B Claude 1290자 ~30초

뉴스 분석

모델 결과 산출물 시간
122B MoE 5827자 / 117줄 49초
9B 1621자 / 44줄 ~30초
27B Claude ⚠️ 타임아웃 -

2.3 해석

122B MoE

  • 장점:
    • 속도와 품질이 동시에 높음
    • 복잡 코드 / 긴 플랜 / 장문 분석에 강함
    • 출력 구조가 가장 풍부함
  • 단점:
    • VRAM 45GB로 상시 운용 부담 큼
  • 최종 판단:
    • 특수 작업용 수동 로드 모델
    • 상시 모델은 아님

Qwen3-Coder-Next-Q3_K_M

  • 장점:
    • 코딩 전용으로 빠르고 안정적
    • 상시 실행기 용도로 적합
  • 단점:
    • 경우에 따라 품질 하한선이 낮을 수 있음
  • 최종 판단:
    • Coder 메인 채택

Qwen3.5-9B-Uncensored-HauhauCS

  • 장점:
    • 매우 가볍고 빠름
    • QA/보조 실행기로 적합
  • 단점:
    • 장문/복잡 구조 생성은 약함
  • 최종 판단:
    • QA 전용 채택

Qwen2.5-Coder-32B

  • 문제:
    • 툴호출 실패
    • 실사용 불가
  • 최종 판단:
    • 삭제

Qwen3-Coder-Next Q6

  • 문제:
    • VRAM 68GB 사용
    • 상시 멀티모델 구조 불가
  • 최종 판단:
    • 삭제

3. 비전 모델 벤치마크

3.1 후보

  • Qwen3-VL-8B-Instruct
  • HauhauCS Qwen3VL-8B-Uncensored
  • moondream2
  • (검토 후 제외) 4B/2B 계열

3.2 1차 텍스트 벤치

모델 VRAM 응답 속도
Qwen3-VL-8B-Instruct 11% OK 52.7 tok/s
HauhauCS Qwen3VL-8B-Uncensored 8% OK 81.9 tok/s
moondream2 7% 빈 문자열 불안정

3.3 실전 OCR 테스트

테스트 이미지: 전주번호/전봇대 표찰 사진

HauhauCS Qwen3VL-8B-Uncensored 결과

  • 추출 결과:
    • 위험
    • 1658S
    • 223
    • 가수원선
    • 85
    • R63L13
    • R7
    • 1404
    • 14M
    • (중동본부)
    • 0
    • 123
  • 메인 전주번호 추정: 1658S
  • 응답시간: 2.15초

Qwen3-VL-8B-Instruct

  • 로드/텍스트 응답은 성공
  • OCR 실전 비교는 HauhauCS보다 우세한 근거 확보 실패
  • 속도/VRAM 면에서 열세

moondream2

  • 기본 텍스트 응답부터 불안정
  • 메인 비전 후보 탈락

3.4 해석

HauhauCS Qwen3VL-8B-Uncensored

  • 장점:
    • 공식판보다 더 빠름
    • 더 적은 VRAM 사용
    • 실제 OCR 결과 usable
  • 최종 판단:
    • 비전 메인 채택

Qwen3-VL-8B-Instruct

  • 장점:
    • 공식판, 비교 기준으로 의미 있음
  • 단점:
    • HauhauCS 대비 속도/VRAM 열세
  • 최종 판단:
    • 미채택 / 비교용 종료 후 삭제

moondream2

  • 최종 판단:
    • 탈락 / 삭제

4. 최종 채택 모델

역할 모델 포트 컨텍스트 비고
메인/플래너/분석 Qwen3.5-35B-MoE-Claude-Q4_K_M 8080 262K 상시
Coder Qwen3-Coder-Next-Q3_K_M 8081 64K 상시
QA Qwen3.5-9B-Uncensored-HauhauCS-Q4_K_M 8082 64K 상시
특수 작업 Qwen3.5-122B-MoE-IQ3_XXS 8083 32K 수동 로드
Vision Qwen3VL-8B-Uncensored-Q4_K_M 8084 32K 상시

5. 폐기/미채택 모델 요약

  • Qwen2.5-Coder-32B → 툴호출 불가
  • Qwen3-Coder-Next Q6_K_XL → VRAM 과다
  • Qwen3-VL-8B-Instruct → 비전 비교에서 밀림
  • moondream2 → 기본 응답 불안정
  • 4B/2B 비전 계열 → 실사용 하한선 미달 우려로 제외

6. 운영 메모

  • 122B는 성능 부족으로 빠진 것이 아니라 상시 운용 효율 때문에 특수 작업용으로 이동함.
  • Coder 품질 미달 / QA 반복 실패 시:
    1. Coder 결과 drop
    2. Coder + Vision off 권장
    3. 122B 수동 로드
    4. 결과 생성 후 QA 검증
    5. 작업 종료 시 122B drop, Coder + Vision 재실행