# benchmark_model.md ## 모델 벤치마크 및 검토 기록 ## 작성: 2026-03-29 --- # 1. 테스트 환경 - 서버: llama (AMD ROCm GPU, VRAM ~96GB) - llama.cpp server + --jinja - 테스트 방식: 직접 HTTP API 호출 / 실제 로컬 서버 로드 - 목적: 멀티에이전트 상시 운용 모델 + 특수 작업 모델 + 비전 모델 선별 --- # 2. 코딩/분석 계열 벤치마크 ## 2.1 기본 비교 | 모델 | 크기 | VRAM | 간단코드 | KIS 작업 | 생성 속도 | 비고 | |------|------|------|---------|----------|----------|------| | Qwen2.5-7B | 4GB | 5GB | 3초 | 10초 | ? | 구형 | | Qwen3.5-9B-Uncensored-HauhauCS | 5.6GB | 5GB | 3.7초 | 54초 | 37.6 t/s | 가벼운 보조 모델 | | Qwen3.5-27B-Claude-Opus | 16.5GB | 16GB | 13.6초 | 161초 | 12.6 t/s | 품질 좋지만 느림 | | Qwen2.5-Coder-32B | 18GB | 18GB | ❌ | ❌ | - | 툴호출 불가 | | Qwen3-Coder-Next Q6 | 76GB | 68GB | 12초 | 50초 | ~11 t/s | VRAM 과다 | | **Qwen3.5-122B-A10B-MoE-IQ3_XXS** | 47GB | **45GB** | **6초** | **37.7초** | **36.5 t/s** | 최고 성능 | ## 2.2 확장 테스트 ### 복잡 코딩 | 모델 | 결과 | 산출물 | 시간 | |------|------|--------|------| | 122B MoE | ✅ | 6327자 / 203줄 | 44초 | | 9B | ✅ | 281자 / 13줄 | 6.6초 | | 27B Claude | ✅ | 362자 / 9줄 | ~30초 | ### 플랜/스케줄 작성 | 모델 | 결과 | 산출물 | 시간 | |------|------|--------|------| | 122B MoE | ✅ | 6196자 / 202줄 | 53초 | | 9B | ✅ | 693자 / 22줄 | ~20초 | | 27B Claude | ✅ | 1290자 | ~30초 | ### 뉴스 분석 | 모델 | 결과 | 산출물 | 시간 | |------|------|--------|------| | 122B MoE | ✅ | 5827자 / 117줄 | 49초 | | 9B | ✅ | 1621자 / 44줄 | ~30초 | | 27B Claude | ⚠️ | 타임아웃 | - | ## 2.3 해석 ### 122B MoE - 장점: - 속도와 품질이 동시에 높음 - 복잡 코드 / 긴 플랜 / 장문 분석에 강함 - 출력 구조가 가장 풍부함 - 단점: - VRAM 45GB로 상시 운용 부담 큼 - 최종 판단: - **특수 작업용 수동 로드 모델** - 상시 모델은 아님 ### Qwen3-Coder-Next-Q3_K_M - 장점: - 코딩 전용으로 빠르고 안정적 - 상시 실행기 용도로 적합 - 단점: - 경우에 따라 품질 하한선이 낮을 수 있음 - 최종 판단: - **Coder 메인 채택** ### Qwen3.5-9B-Uncensored-HauhauCS - 장점: - 매우 가볍고 빠름 - QA/보조 실행기로 적합 - 단점: - 장문/복잡 구조 생성은 약함 - 최종 판단: - **QA 전용 채택** ### Qwen2.5-Coder-32B - 문제: - 툴호출 실패 - 실사용 불가 - 최종 판단: - **삭제** ### Qwen3-Coder-Next Q6 - 문제: - VRAM 68GB 사용 - 상시 멀티모델 구조 불가 - 최종 판단: - **삭제** --- # 3. 비전 모델 벤치마크 ## 3.1 후보 - Qwen3-VL-8B-Instruct - HauhauCS Qwen3VL-8B-Uncensored - moondream2 - (검토 후 제외) 4B/2B 계열 ## 3.2 1차 텍스트 벤치 | 모델 | VRAM | 응답 | 속도 | |------|------|------|------| | Qwen3-VL-8B-Instruct | 11% | OK | 52.7 tok/s | | **HauhauCS Qwen3VL-8B-Uncensored** | **8%** | OK | **81.9 tok/s** | | moondream2 | 7% | 빈 문자열 | 불안정 | ## 3.3 실전 OCR 테스트 테스트 이미지: 전주번호/전봇대 표찰 사진 ### HauhauCS Qwen3VL-8B-Uncensored 결과 - 추출 결과: - 위험 - 1658S - 223 - 가수원선 - 85 - R63L13 - R7 - 1404 - 14M - (중동본부) - 0 - 123 - 메인 전주번호 추정: **1658S** - 응답시간: **2.15초** ### Qwen3-VL-8B-Instruct - 로드/텍스트 응답은 성공 - OCR 실전 비교는 HauhauCS보다 우세한 근거 확보 실패 - 속도/VRAM 면에서 열세 ### moondream2 - 기본 텍스트 응답부터 불안정 - 메인 비전 후보 탈락 ## 3.4 해석 ### HauhauCS Qwen3VL-8B-Uncensored - 장점: - 공식판보다 더 빠름 - 더 적은 VRAM 사용 - 실제 OCR 결과 usable - 최종 판단: - **비전 메인 채택** ### Qwen3-VL-8B-Instruct - 장점: - 공식판, 비교 기준으로 의미 있음 - 단점: - HauhauCS 대비 속도/VRAM 열세 - 최종 판단: - **미채택 / 비교용 종료 후 삭제** ### moondream2 - 최종 판단: - **탈락 / 삭제** --- # 4. 최종 채택 모델 | 역할 | 모델 | 포트 | 컨텍스트 | 비고 | |------|------|------|----------|------| | 메인/플래너/분석 | Qwen3.5-35B-MoE-Claude-Q4_K_M | 8080 | 262K | 상시 | | Coder | Qwen3-Coder-Next-Q3_K_M | 8081 | 64K | 상시 | | QA | Qwen3.5-9B-Uncensored-HauhauCS-Q4_K_M | 8082 | 64K | 상시 | | 특수 작업 | Qwen3.5-122B-MoE-IQ3_XXS | 8083 | 32K | 수동 로드 | | Vision | Qwen3VL-8B-Uncensored-Q4_K_M | 8084 | 32K | 상시 | --- # 5. 폐기/미채택 모델 요약 - Qwen2.5-Coder-32B → 툴호출 불가 - Qwen3-Coder-Next Q6_K_XL → VRAM 과다 - Qwen3-VL-8B-Instruct → 비전 비교에서 밀림 - moondream2 → 기본 응답 불안정 - 4B/2B 비전 계열 → 실사용 하한선 미달 우려로 제외 --- # 6. 운영 메모 - 122B는 성능 부족으로 빠진 것이 아니라 **상시 운용 효율 때문에 특수 작업용으로 이동**함. - Coder 품질 미달 / QA 반복 실패 시: 1. Coder 결과 drop 2. Coder + Vision off 권장 3. 122B 수동 로드 4. 결과 생성 후 QA 검증 5. 작업 종료 시 122B drop, Coder + Vision 재실행