Files
Unimarc/unimarc/unimarc/SearchModel/IksanLibSearcher.cs
chiDT 216311b558 검색결과 없음 HTML 추출 개선 및 도서관별 지연시간 저장 기능 구현
- 모든 도서관 검색기에서 검색결과 없음시 구체적인 HTML 조각 추출
- BookSearchResult에 Resulthtml 속성 추가하여 매칭된 HTML 컨텍스트 저장
- Helper_LibraryDelaySettings.cs 추가로 도서관별 검색 지연시간 XML 저장
- Check_copyWD.cs에 dvc_resulthtml 컬럼 표시 및 지연시간 저장 UI 구현
- 15개 SearchModel 파일에서 htmlContent 1000자 자르기를 의미있는 메시지로 교체
- HTTP 검색기들에 한글 인코딩 문제 해결을 위한 헤더 개선

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-09-15 23:39:04 +09:00

251 lines
11 KiB
C#

using System;
using System.Threading.Tasks;
using System.Text.RegularExpressions;
using System.Net.Http;
using System.Collections.Generic; // Added missing import
using OpenQA.Selenium.Support.UI; // Added missing import
namespace BokBonCheck
{
public class IksanLibSearcher : ILibrarySearcher
{
public string AreaCode { get; set; } = string.Empty;
public string SiteName { get; protected set; }
public string SiteUrl => "https://lib.iksan.go.kr/main/site/search/bookSearch.do";
public bool HttpApiMode { get; set; } = true;
public int No { get; set; }
private static readonly HttpClient _httpClient = new HttpClient()
{
DefaultRequestHeaders =
{
{ "User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" }
}
};
public IksanLibSearcher(int no, string areaCode, string areaName)
{
this.No = no;
this.AreaCode = areaCode;
this.SiteName = $"익산시립({areaName})";
}
public void StopDriver()
{
// HTTP 클라이언트 사용으로 별도 정리 불필요
}
public async Task StartDriver(bool showdriver = false)
{
// HTTP 클라이언트 사용으로 별도 드라이버 불필요
await Task.CompletedTask;
}
public async Task<BookSearchResult> SearchAsync(string searchTerm)
{
var result = new BookSearchResult
{
SiteName = SiteName,
SearchTerm = searchTerm,
SearchTime = DateTime.Now
};
try
{
// 검색어 URL 인코딩
var encodedSearchTerm = System.Web.HttpUtility.UrlEncode(searchTerm, System.Text.Encoding.UTF8);
// 검색 URL 구성 - GET 방식으로 URL 파라미터 전송
var searchUrl = $"{SiteUrl}?cmd_name=bookandnonbooksearch&search_type=detail&detail=OK&use_facet=N&all_lib=N&search_item=search_title&search_txt=&search_title={encodedSearchTerm}";
// 도서관 코드가 있으면 추가
if (!string.IsNullOrEmpty(AreaCode))
{
searchUrl += $"&manage_code={AreaCode}";
}
Console.WriteLine($"익산시통합도서관 검색 요청: {searchTerm}, 도서관코드: {AreaCode}");
Console.WriteLine($"검색 URL: {searchUrl}");
// HTTP GET 요청 실행 (추가 헤더 포함)
using (var request = new HttpRequestMessage(HttpMethod.Get, searchUrl))
{
// 브라우저와 유사한 헤더 추가
request.Headers.Add("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
request.Headers.Add("Accept-Language", "ko-KR,ko;q=0.8,en-US;q=0.5,en;q=0.3");
//request.Headers.Add("Accept-Encoding", "gzip, deflate, br");
request.Headers.Add("Connection", "keep-alive");
request.Headers.Add("Upgrade-Insecure-Requests", "1");
var response = await _httpClient.SendAsync(request);
response.EnsureSuccessStatusCode();
var htmlContent = await response.Content.ReadAsStringAsync();
// 검색 결과 수 추출
var resultCount = ExtractBookCount(htmlContent, out string errorMessage, out string resultHtml);
result.Resulthtml = resultHtml;
if (resultCount == -1)
{
result.BookCount = 0;
result.IsSuccess = false;
result.ErrorMessage = errorMessage;
}
else
{
result.BookCount = resultCount;
result.IsSuccess = true;
result.ErrorMessage = $"검색성공({resultCount}권)";
}
}
}
catch (Exception ex)
{
result.IsSuccess = false;
result.ErrorMessage = ex.Message;
result.BookCount = 0;
}
return result;
}
private int ExtractBookCount(string htmlContent, out string errmessage, out string resulthtml)
{
errmessage = string.Empty;
resulthtml = string.Empty;
try
{
// 실제 HTML 구조에 맞는 패턴으로 수정
var htmlPatterns = new[]
{
// "상세검색결과 <strong>3</strong>개" 패턴 (실제 구조)
@"상세검색결과\s*<strong[^>]*>\s*(\d+)\s*</strong>\s*개",
// "전체 <strong class="word">1</strong>개가 검색되었습니다" 패턴 (이전 패턴)
@"전체\s*<strong[^>]*class=""word""[^>]*>\s*(\d+)\s*</strong>\s*개가\s*검색되었습니다",
// "전체 <strong class="word">0</strong>개가 검색되었습니다" 패턴 (0인 경우)
@"전체\s*<strong[^>]*class=""word""[^>]*>\s*0\s*</strong>\s*개가\s*검색되었습니다",
// 일반적인 "전체 X개가 검색되었습니다" 패턴
@"전체\s*(\d+)\s*개가\s*검색되었습니다",
// 숫자만 찾는 패턴 (마지막 수단)
@"(\d+)\s*개가\s*검색되었습니다"
};
foreach (var pattern in htmlPatterns)
{
var match = Regex.Match(htmlContent, pattern, RegexOptions.IgnoreCase);
if (match.Success)
{
// 0인 경우를 먼저 확인
if (pattern.Contains(@"\s*0\s*"))
{
errmessage = "검색결과없음";
resulthtml = match.Value;
return 0;
}
// 숫자 추출
if (int.TryParse(match.Groups[1].Value, out int count))
{
if (count == 0)
{
errmessage = "검색결과없음";
resulthtml = match.Value;
return 0;
}
// 매칭된 부분과 그 상위 태그를 찾아서 저장
resulthtml = ExtractResultContext(htmlContent, match);
errmessage = $"검색성공({count}권)";
return count;
}
}
}
// 패턴을 찾지 못한 경우
resulthtml = "검색결과 패턴을 찾을 수 없음";
Console.WriteLine($"HTML 내용 일부: {htmlContent.Substring(0, Math.Min(1000, htmlContent.Length))}");
errmessage = "결과수량을찾을수없음";
return -1;
}
catch (Exception ex)
{
errmessage = ex.Message;
resulthtml = "검색결과 패턴을 찾을 수 없음";
return -1;
}
}
// 페이지 변경을 감지하는 메서드 (HTTP 방식에서는 불필요)
public async Task WaitForPageChange(WebDriverWait wait)
{
// HTTP 방식에서는 즉시 응답이 오므로 대기 불필요
await Task.CompletedTask;
}
/// <summary>
/// 매칭된 결과와 그 상위 태그를 추출
/// </summary>
private string ExtractResultContext(string htmlContent, Match match)
{
try
{
var matchIndex = match.Index;
var matchLength = match.Length;
// 매칭된 위치 앞쪽에서 상위 태그 시작 찾기
var startSearchIndex = Math.Max(0, matchIndex - 200); // 매칭 위치 200자 전부터 검색
var searchText = htmlContent.Substring(startSearchIndex, matchIndex - startSearchIndex + matchLength + Math.Min(200, htmlContent.Length - matchIndex - matchLength));
// 상위 태그 패턴들 (div, p, h1-h6, span 등)
var tagPatterns = new[] { @"<(div|p|h[1-6]|span|section|article)[^>]*>", @"<[^>]+>" };
string resultContext = match.Value; // 기본값은 매칭된 부분만
foreach (var tagPattern in tagPatterns)
{
// 매칭된 부분 앞에서 가장 가까운 태그 시작 찾기
var tagMatches = Regex.Matches(searchText, tagPattern, RegexOptions.IgnoreCase);
for (int i = tagMatches.Count - 1; i >= 0; i--)
{
var tagMatch = tagMatches[i];
if (tagMatch.Index < (matchIndex - startSearchIndex))
{
// 태그 이름 추출
var tagName = Regex.Match(tagMatch.Value, @"<(\w+)", RegexOptions.IgnoreCase).Groups[1].Value;
// 닫는 태그 찾기
var closeTagPattern = $@"</{tagName}[^>]*>";
var closeMatch = Regex.Match(searchText, closeTagPattern, RegexOptions.IgnoreCase);
if (closeMatch.Success && closeMatch.Index > (matchIndex - startSearchIndex))
{
// 상위 태그와 그 내용을 포함하여 반환
var startIdx = tagMatch.Index;
var endIdx = closeMatch.Index + closeMatch.Length;
resultContext = searchText.Substring(startIdx, Math.Min(endIdx - startIdx, 500)); // 최대 500자
return resultContext;
}
}
}
}
// 상위 태그를 찾지 못한 경우, 매칭 전후 50자씩 포함
var contextStart = Math.Max(0, matchIndex - 50);
var contextEnd = Math.Min(htmlContent.Length, matchIndex + matchLength + 50);
resultContext = htmlContent.Substring(contextStart, contextEnd - contextStart);
return resultContext;
}
catch (Exception ex)
{
Console.WriteLine($"ExtractResultContext 오류: {ex.Message}");
return match.Value; // 오류 시 매칭된 부분만 반환
}
}
}
}