- 모든 도서관 검색기에서 검색결과 없음시 구체적인 HTML 조각 추출 - BookSearchResult에 Resulthtml 속성 추가하여 매칭된 HTML 컨텍스트 저장 - Helper_LibraryDelaySettings.cs 추가로 도서관별 검색 지연시간 XML 저장 - Check_copyWD.cs에 dvc_resulthtml 컬럼 표시 및 지연시간 저장 UI 구현 - 15개 SearchModel 파일에서 htmlContent 1000자 자르기를 의미있는 메시지로 교체 - HTTP 검색기들에 한글 인코딩 문제 해결을 위한 헤더 개선 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>
304 lines
13 KiB
C#
304 lines
13 KiB
C#
using System;
|
|
using System.Net.Http;
|
|
using System.Threading.Tasks;
|
|
using System.Text.RegularExpressions;
|
|
using System.Web;
|
|
using UniMarc.SearchModel;
|
|
using System.Text;
|
|
|
|
namespace BokBonCheck
|
|
{
|
|
public class SuncheonLibSearcher : ILibrarySearcher
|
|
{
|
|
public string AreaCode { get; set; } = string.Empty;
|
|
public string SiteName { get; protected set; }
|
|
public string SiteUrl => "https://library.suncheon.go.kr/lib/book/search/searchIndex.do";
|
|
public bool HttpApiMode { get; set; } = true;
|
|
|
|
public int No { get; set; }
|
|
|
|
private static readonly HttpClient _httpClient = new HttpClient()
|
|
{
|
|
DefaultRequestHeaders =
|
|
{
|
|
{ "User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36" }
|
|
}
|
|
};
|
|
|
|
public SuncheonLibSearcher(int no, string areaCode, string areaName)
|
|
{
|
|
this.No = no;
|
|
this.AreaCode = areaCode;
|
|
this.SiteName = $"순천시립({areaName})";
|
|
}
|
|
|
|
public async Task StartDriver(bool showdriver = false)
|
|
{
|
|
// HTTP 클라이언트 사용으로 별도 드라이버 불필요
|
|
await Task.CompletedTask;
|
|
}
|
|
|
|
public void StopDriver()
|
|
{
|
|
// HTTP 클라이언트 사용으로 별도 정리 불필요
|
|
}
|
|
|
|
public async Task<BookSearchResult> SearchAsync(string searchTerm)
|
|
{
|
|
var result = new BookSearchResult
|
|
{
|
|
SiteName = SiteName,
|
|
SearchTerm = searchTerm,
|
|
SearchTime = DateTime.Now
|
|
};
|
|
|
|
try
|
|
{
|
|
// 검색어 URL 인코딩
|
|
var encodedSearchTerm = HttpUtility.UrlEncode(searchTerm, Encoding.UTF8);
|
|
|
|
// 검색 URL 구성
|
|
var searchUrl = $"{SiteUrl}?menuCd=L001001001&alpha=&vcindex=¤tPageNo=1&nPageSize=10&searchType=title&search={encodedSearchTerm}&mediaCode=";
|
|
|
|
// 도서관 코드가 있으면 추가
|
|
if (!string.IsNullOrEmpty(AreaCode))
|
|
{
|
|
if (AreaCode == "mini")
|
|
{
|
|
// 작은도서관의 경우 모든 코드를 포함
|
|
searchUrl += "&manageCd=AB,AC,AD,AE,AF,AG,AH,AI,AJ,AK,AL,AM,AN,AO,AP,AQ,AR,AS,AT,AU,AV,AW,AX,AY,AZ,BA,BB,BC,BD,BF,BG,BH,BI,BJ,BM,BQ,BS,BW,CA,CB,CC,CD,CE,CF,CG,CH,CI,CJ,CK,CL,CM,CN,CO,CP,CQ,DA,DB,DC,DD,DE,DF,DG,DH,DI,DJ,DK,DL,DS,GD";
|
|
}
|
|
else
|
|
{
|
|
searchUrl += $"&manageCd={AreaCode}";
|
|
}
|
|
}
|
|
|
|
Console.WriteLine($"순천시립도서관 검색 URL: {searchUrl}");
|
|
|
|
// HTTP GET 요청 실행 (추가 헤더 포함)
|
|
using (var request = new HttpRequestMessage(HttpMethod.Get, searchUrl))
|
|
{
|
|
// 브라우저와 유사한 헤더 추가
|
|
request.Headers.Add("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
|
|
request.Headers.Add("Accept-Language", "ko-KR,ko;q=0.8,en-US;q=0.5,en;q=0.3");
|
|
//request.Headers.Add("Accept-Encoding", "gzip, deflate, br");
|
|
request.Headers.Add("Connection", "keep-alive");
|
|
request.Headers.Add("Upgrade-Insecure-Requests", "1");
|
|
|
|
var response = await _httpClient.SendAsync(request);
|
|
|
|
if (!response.IsSuccessStatusCode)
|
|
{
|
|
var errorContent = await response.Content.ReadAsStringAsync();
|
|
throw new HttpRequestException($"HTTP {(int)response.StatusCode} {response.StatusCode}: {errorContent}");
|
|
}
|
|
|
|
var htmlContent = await response.Content.ReadAsStringAsync();
|
|
|
|
// 검색 결과 수 추출
|
|
var resultCount = ExtractBookCount(htmlContent, out string errorMessage, out string resultHtml);
|
|
result.Resulthtml = resultHtml;
|
|
|
|
if (resultCount == -1)
|
|
{
|
|
result.BookCount = 0;
|
|
result.IsSuccess = false;
|
|
result.ErrorMessage = errorMessage;
|
|
}
|
|
else
|
|
{
|
|
result.BookCount = resultCount;
|
|
result.IsSuccess = true;
|
|
result.ErrorMessage = $"검색성공({resultCount}권)";
|
|
}
|
|
}
|
|
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
result.IsSuccess = false;
|
|
result.ErrorMessage = $"검색 오류: {ex.Message}";
|
|
result.BookCount = 0;
|
|
Console.WriteLine($"순천시립도서관 검색 오류: {ex.Message}");
|
|
}
|
|
|
|
return result;
|
|
}
|
|
|
|
private int ExtractBookCount(string htmlContent, out string errorMessage, out string resulthtml)
|
|
{
|
|
errorMessage = string.Empty;
|
|
resulthtml = string.Empty;
|
|
|
|
try
|
|
{
|
|
// HTML에서 "총 <strong class="cred">N</strong>건" 패턴 찾기
|
|
var patterns = new[]
|
|
{
|
|
@"총\s*<strong[^>]*class=""cred""[^>]*>(\d+)</strong>\s*건",
|
|
@"총\s*<strong[^>]*>(\d+)</strong>\s*건",
|
|
@"총\s*(\d+)\s*건",
|
|
@"<strong[^>]*class=""cred""[^>]*>(\d+)</strong>"
|
|
};
|
|
|
|
foreach (var pattern in patterns)
|
|
{
|
|
var match = Regex.Match(htmlContent, pattern, RegexOptions.IgnoreCase);
|
|
if (match.Success)
|
|
{
|
|
if (int.TryParse(match.Groups[1].Value, out int count))
|
|
{
|
|
if (count == 0)
|
|
{
|
|
errorMessage = "검색결과없음";
|
|
resulthtml = match.Value;
|
|
return 0;
|
|
}
|
|
// 매칭된 부분과 그 상위 태그를 찾아서 저장
|
|
resulthtml = ExtractResultContext(htmlContent, match);
|
|
errorMessage = $"검색성공({count}권)";
|
|
return count;
|
|
}
|
|
}
|
|
}
|
|
|
|
// 검색 결과가 없다는 메시지 확인
|
|
if (htmlContent.Contains("검색결과가 없습니다") ||
|
|
htmlContent.Contains("검색된 자료가 없습니다") ||
|
|
htmlContent.Contains("자료가 없습니다") ||
|
|
htmlContent.Contains("총 0건"))
|
|
{
|
|
errorMessage = "검색결과없음";
|
|
resulthtml = "검색결과없음";
|
|
return 0;
|
|
}
|
|
|
|
// resultCon 영역에서 더 자세히 검색
|
|
var resultConPattern = @"<div[^>]*class=""resultCon[^""]*""[^>]*>.*?총\s*<strong[^>]*>(\d+)</strong>\s*건.*?</div>";
|
|
var resultConMatch = Regex.Match(htmlContent, resultConPattern, RegexOptions.IgnoreCase | RegexOptions.Singleline);
|
|
if (resultConMatch.Success)
|
|
{
|
|
if (int.TryParse(resultConMatch.Groups[1].Value, out int count))
|
|
{
|
|
if (count == 0)
|
|
{
|
|
errorMessage = "검색결과없음";
|
|
resulthtml = resultConMatch.Value;
|
|
return 0;
|
|
}
|
|
resulthtml = ExtractResultContext(htmlContent, resultConMatch);
|
|
errorMessage = $"검색성공({count}권)";
|
|
return count;
|
|
}
|
|
}
|
|
|
|
// 더 넓은 범위로 숫자 찾기 시도
|
|
var generalPatterns = new[]
|
|
{
|
|
@"검색한\s*결과\s*총\s*<strong[^>]*>(\d+)</strong>",
|
|
@"검색결과를\s*찾았습니다[^>]*>(\d+)</strong>",
|
|
@"<strong[^>]*class=""cred""[^>]*>(\d+)</strong>"
|
|
};
|
|
|
|
foreach (var pattern in generalPatterns)
|
|
{
|
|
var match = Regex.Match(htmlContent, pattern, RegexOptions.IgnoreCase);
|
|
if (match.Success)
|
|
{
|
|
if (int.TryParse(match.Groups[1].Value, out int count))
|
|
{
|
|
if (count == 0)
|
|
{
|
|
errorMessage = "검색결과없음";
|
|
resulthtml = match.Value;
|
|
return 0;
|
|
}
|
|
resulthtml = ExtractResultContext(htmlContent, match);
|
|
errorMessage = $"검색성공({count}권)";
|
|
return count;
|
|
}
|
|
}
|
|
}
|
|
|
|
// 패턴을 찾지 못한 경우
|
|
resulthtml = "검색결과 패턴을 찾을 수 없음";
|
|
errorMessage = "검색결과 패턴을 찾을 수 없음";
|
|
return -1;
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
errorMessage = $"결과 분석 오류: {ex.Message}";
|
|
resulthtml = "검색결과 패턴을 찾을 수 없음";
|
|
return -1;
|
|
}
|
|
}
|
|
|
|
public Task WaitForPageChange(OpenQA.Selenium.Support.UI.WebDriverWait wait)
|
|
{
|
|
throw new NotImplementedException();
|
|
}
|
|
|
|
/// <summary>
|
|
/// 매칭된 결과와 그 상위 태그를 추출
|
|
/// </summary>
|
|
private string ExtractResultContext(string htmlContent, Match match)
|
|
{
|
|
try
|
|
{
|
|
var matchIndex = match.Index;
|
|
var matchLength = match.Length;
|
|
|
|
// 매칭된 위치 앞쪽에서 상위 태그 시작 찾기
|
|
var startSearchIndex = Math.Max(0, matchIndex - 200); // 매칭 위치 200자 전부터 검색
|
|
var searchText = htmlContent.Substring(startSearchIndex, matchIndex - startSearchIndex + matchLength + Math.Min(200, htmlContent.Length - matchIndex - matchLength));
|
|
|
|
// 상위 태그 패턴들 (div, p, h1-h6, span 등)
|
|
var tagPatterns = new[] { @"<(div|p|h[1-6]|span|section|article)[^>]*>", @"<[^>]+>" };
|
|
|
|
string resultContext = match.Value; // 기본값은 매칭된 부분만
|
|
|
|
foreach (var tagPattern in tagPatterns)
|
|
{
|
|
// 매칭된 부분 앞에서 가장 가까운 태그 시작 찾기
|
|
var tagMatches = Regex.Matches(searchText, tagPattern, RegexOptions.IgnoreCase);
|
|
|
|
for (int i = tagMatches.Count - 1; i >= 0; i--)
|
|
{
|
|
var tagMatch = tagMatches[i];
|
|
if (tagMatch.Index < (matchIndex - startSearchIndex))
|
|
{
|
|
// 태그 이름 추출
|
|
var tagName = Regex.Match(tagMatch.Value, @"<(\w+)", RegexOptions.IgnoreCase).Groups[1].Value;
|
|
|
|
// 닫는 태그 찾기
|
|
var closeTagPattern = $@"</{tagName}[^>]*>";
|
|
var closeMatch = Regex.Match(searchText, closeTagPattern, RegexOptions.IgnoreCase);
|
|
|
|
if (closeMatch.Success && closeMatch.Index > (matchIndex - startSearchIndex))
|
|
{
|
|
// 상위 태그와 그 내용을 포함하여 반환
|
|
var startIdx = tagMatch.Index;
|
|
var endIdx = closeMatch.Index + closeMatch.Length;
|
|
resultContext = searchText.Substring(startIdx, Math.Min(endIdx - startIdx, 500)); // 최대 500자
|
|
return resultContext;
|
|
}
|
|
}
|
|
}
|
|
}
|
|
|
|
// 상위 태그를 찾지 못한 경우, 매칭 전후 50자씩 포함
|
|
var contextStart = Math.Max(0, matchIndex - 50);
|
|
var contextEnd = Math.Min(htmlContent.Length, matchIndex + matchLength + 50);
|
|
resultContext = htmlContent.Substring(contextStart, contextEnd - contextStart);
|
|
|
|
return resultContext;
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
Console.WriteLine($"ExtractResultContext 오류: {ex.Message}");
|
|
return match.Value; // 오류 시 매칭된 부분만 반환
|
|
}
|
|
}
|
|
}
|
|
} |