Files
Unimarc/unimarc/unimarc/SearchModel/JunnamEduJiheaNuriSearcher.cs
chiDT 216311b558 검색결과 없음 HTML 추출 개선 및 도서관별 지연시간 저장 기능 구현
- 모든 도서관 검색기에서 검색결과 없음시 구체적인 HTML 조각 추출
- BookSearchResult에 Resulthtml 속성 추가하여 매칭된 HTML 컨텍스트 저장
- Helper_LibraryDelaySettings.cs 추가로 도서관별 검색 지연시간 XML 저장
- Check_copyWD.cs에 dvc_resulthtml 컬럼 표시 및 지연시간 저장 UI 구현
- 15개 SearchModel 파일에서 htmlContent 1000자 자르기를 의미있는 메시지로 교체
- HTTP 검색기들에 한글 인코딩 문제 해결을 위한 헤더 개선

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <noreply@anthropic.com>
2025-09-15 23:39:04 +09:00

498 lines
19 KiB
C#

using System;
using System.Threading.Tasks;
using OpenQA.Selenium;
using OpenQA.Selenium.Chrome;
using OpenQA.Selenium.Support.UI;
using System.Text.RegularExpressions;
using WebDriverManager;
using WebDriverManager.DriverConfigs.Impl;
using System.IO;
using System.Runtime.InteropServices;
using System.Threading;
using UniMarc.;
using OpenQA.Selenium.Chromium;
using UniMarc.SearchModel;
using System.Runtime.CompilerServices;
using AR;
namespace BokBonCheck
{
public class JunnamEduJiheaNuriSearcher : ILibrarySearcher
{
public string AreaCode { get; set; } = string.Empty;
public string SiteName { get; protected set; }
public string SiteUrl => "https://jnelib.jne.go.kr/book/search_book/search.es?mid=d20101000000";
public bool HttpApiMode { get; set; } = false;
public int No { get; set; }
private ChromiumDriver _driver;
public JunnamEduJiheaNuriSearcher(int no, string areaCode, string areaName)
{
this.No = no;
this.AreaCode = areaCode;
this.SiteName = $"전남교육청행정자료실({areaName})";
}
public void StopDriver()
{
if (_driver != null)
{
_driver.Quit();
_driver.Dispose();
_driver = null;
}
}
public async Task StartDriver(bool showdriver = false)
{
if (_driver == null)
{
try
{
if (SeleniumHelper.IsReady == false) await SeleniumHelper.Download();
_driver = await SeleniumHelper.CreateDriver(ShowBrowser: showdriver);
Console.WriteLine("JunnamEduJiheaNuriSearcher Driver 초기화 완료");
}
catch (Exception ex)
{
Console.WriteLine($"JunnamEduJiheaNuriSearcher Driver 초기화 실패: {ex.Message}");
throw new InvalidOperationException($"JunnamEduJiheaNuriSearcher Driver 초기화에 실패했습니다: {ex.Message}", ex);
}
}
}
virtual protected bool SelectLibrary(WebDriverWait wait)
{
try
{
if (this.AreaCode.isEmpty()) return true;
// Areacode가 "ALL"인 경우
if (AreaCode == "ALL")
{
var allCheckbox = wait.Until(d => d.FindElement(By.Id("all_srch")));
if (!allCheckbox.Selected)
{
SafeClick(allCheckbox);
Thread.Sleep(300);
Console.WriteLine("전체 선택으로 변경됨");
}
else
{
Console.WriteLine("전체 선택이 이미 활성화되어 있음");
}
return true;
}
// 특정 지역 선택인 경우
var targetSelector = $"libInfo_{AreaCode}";
var targetCheckbox = wait.Until(d => d.FindElement(By.Id(targetSelector)));
if (targetCheckbox == null)
{
Console.WriteLine($"도서관 체크박스를 찾을 수 없습니다: {targetSelector}");
return false;
}
// 전체 선택이 되어 있으면 해제
var allCheckbox2 = wait.Until(d => d.FindElement(By.Id("all_srch")));
if (allCheckbox2.Selected)
{
SafeClick(allCheckbox2);
Thread.Sleep(300);
Console.WriteLine("전체 선택 해제됨");
}
// 대상 지역 선택
if (!targetCheckbox.Selected)
{
SafeClick(targetCheckbox);
Thread.Sleep(300);
Console.WriteLine($"{AreaCode} 지역으로 변경됨");
}
return true;
}
catch (Exception ex)
{
Console.WriteLine($"도서관 선택 실패: {ex.Message}");
return false;
}
}
protected void SafeClick(IWebElement searchBox)
{
// 안정적인 클릭을 위한 여러 방법 시도
try
{
// 1. JavaScript로 클릭 시도
var driver = ((IWrapsDriver)searchBox).WrappedDriver;
((IJavaScriptExecutor)driver).ExecuteScript("arguments[0].click();", searchBox);
}
catch
{
try
{
// 2. 요소가 보이도록 스크롤 후 클릭
var driver = ((IWrapsDriver)searchBox).WrappedDriver;
((IJavaScriptExecutor)driver).ExecuteScript("arguments[0].scrollIntoView(true);", searchBox);
Thread.Sleep(500);
searchBox.Click();
}
catch
{
try
{
// 3. Actions 클래스 사용
var driver = ((IWrapsDriver)searchBox).WrappedDriver;
var actions = new OpenQA.Selenium.Interactions.Actions(driver);
actions.MoveToElement(searchBox).Click().Perform();
}
catch
{
// 4. 마지막 방법: JavaScript로 직접 체크 해제
var driver = ((IWrapsDriver)searchBox).WrappedDriver;
((IJavaScriptExecutor)driver).ExecuteScript("arguments[0].checked = false;", searchBox);
}
}
}
}
public async Task<BookSearchResult> SearchAsync(string searchTerm)
{
var result = new BookSearchResult
{
SiteName = SiteName,
SearchTerm = searchTerm,
SearchTime = DateTime.Now
};
try
{
// 드라이버가 없으면 자동으로 시작
if (_driver == null)
{
await StartDriver();
}
var cururl = _driver.Url;
if (cururl.Equals(SiteUrl) == false)
_driver.Navigate().GoToUrl(SiteUrl);
// 페이지 로딩 대기
var wait = new WebDriverWait(_driver, TimeSpan.FromSeconds(15));
// 도서관 선택
if (SelectLibrary(wait) == false)
{
result.ErrorMessage = "도서관선택실패";
result.BookCount = -1;
result.IsSuccess = false;
return result;
}
// 검색 방법을 서명으로 변경
try
{
var searchKeyWordSelect = wait.Until(d => d.FindElement(By.Id("searchKeyWord")));
var selectElement = new SelectElement(searchKeyWordSelect);
selectElement.SelectByValue("1"); // 1 = 서명
Thread.Sleep(300);
}
catch (Exception ex)
{
result.ErrorMessage = $"검색방법선택실패({ex.Message})";
result.BookCount = -1;
result.IsSuccess = false;
return result;
}
// 검색어 입력
IWebElement searchBox = null;
try
{
searchBox = wait.Until(d => d.FindElement(By.Id("searchWordText")));
searchBox.Clear();
searchBox.SendKeys(searchTerm);
}
catch (Exception ex)
{
result.ErrorMessage = $"검색창없음({ex.Message})";
result.BookCount = -1;
result.IsSuccess = false;
return result;
}
// 검색 버튼 클릭
IWebElement searchButton = null;
try
{
searchButton = _driver.FindElement(By.CssSelector("button[type='submit']"));
if (searchButton != null)
searchButton.Click();
else
{
result.ErrorMessage = $"검색버튼없음";
result.BookCount = -1;
result.IsSuccess = false;
return result;
}
}
catch (Exception ex)
{
result.ErrorMessage = $"검색버튼없음({ex.Message})";
result.BookCount = -1;
result.IsSuccess = false;
return result;
}
// 페이지 변경을 감지하는 메서드
await WaitForPageChange(new WebDriverWait(_driver, TimeSpan.FromSeconds(15)));
// 검색 결과 수 추출
var resultCount = ExtractBookCount(_driver, searchTerm, out string ermsg, out string resultHtml);
result.Resulthtml = resultHtml;
if (resultCount == -1)
{
result.BookCount = 0;
result.IsSuccess = false;
result.ErrorMessage = ermsg;
}
else
{
result.BookCount = resultCount;
result.IsSuccess = true;
result.ErrorMessage = ermsg;
}
}
catch (Exception ex)
{
result.IsSuccess = false;
result.ErrorMessage = ex.Message;
result.BookCount = 0;
}
return result;
}
private int ExtractBookCount(IWebDriver driver, string searchTerm, out string errmessage, out string resulthtml)
{
errmessage = string.Empty;
resulthtml = string.Empty;
try
{
var htmlContent = driver.PageSource;
// 먼저 검색결과가 없는 경우 확인
try
{
var noResultDiv = driver.FindElement(By.CssSelector(".SearchResult .resultBook"));
var noResultText = noResultDiv.Text;
if (noResultText.Contains("검색결과가 없습니다"))
{
errmessage = "검색결과없음";
resulthtml = noResultText;
return 0;
}
}
catch
{
// 검색결과가 없는 경우 div가 없을 수도 있음
}
// 검색결과가 있는 경우 p.page_info에서 전체 건수 추출
try
{
var pageInfo = driver.FindElement(By.CssSelector("p.page_info"));
var pageInfoText = pageInfo.Text; // 예: "전체 7건, 현재 페이지 1/1"
var match = System.Text.RegularExpressions.Regex.Match(pageInfoText, @"전체\s*(\d+)건");
if (match.Success)
{
if (int.TryParse(match.Groups[1].Value, out int vqty))
{
errmessage = $"검색성공({vqty}건)";
resulthtml = ExtractResultContext(htmlContent, match);
return vqty;
}
else
{
errmessage = $"수량값오류({match.Groups[1].Value})";
resulthtml = match.Value;
return -1;
}
}
else
{
errmessage = "수량항목없음";
// 매칭된 부분이 없는 경우, 기본적으로 pageInfoText 부분 추출 시도
try
{
var dummyMatch = System.Text.RegularExpressions.Regex.Match(pageInfoText, @"전체.*");
if (dummyMatch.Success)
{
resulthtml = ExtractResultContext(htmlContent, dummyMatch);
}
else
{
resulthtml = htmlContent.Length > 500 ? htmlContent.Substring(0, 500) : htmlContent;
}
}
catch
{
resulthtml = htmlContent.Length > 500 ? htmlContent.Substring(0, 500) : htmlContent;
}
return -1;
}
}
catch (Exception ex)
{
// page_info가 없는 경우 검색결과가 없는 것으로 판단
errmessage = "검색결과없음";
resulthtml = "검색결과 없음: " + ex.Message;
return 0;
}
}
catch (Exception ex)
{
errmessage = ex.Message;
resulthtml = "ExtractBookCount 오류: " + ex.Message;
return -1;
}
}
/// <summary>
/// 매칭된 결과와 그 상위 태그를 추출
/// </summary>
private string ExtractResultContext(string htmlContent, Match match)
{
try
{
var matchIndex = match.Index;
var matchLength = match.Length;
// 매칭된 위치 앞쪽에서 상위 태그 시작 찾기
var startSearchIndex = Math.Max(0, matchIndex - 200); // 매칭 위치 200자 전부터 검색
var searchText = htmlContent.Substring(startSearchIndex, matchIndex - startSearchIndex + matchLength + Math.Min(200, htmlContent.Length - matchIndex - matchLength));
// 상위 태그 패턴들 (div, p, h1-h6, span 등)
var tagPatterns = new[] { @"<(div|p|h[1-6]|span|section|article)[^>]*>", @"<[^>]+>" };
string resultContext = match.Value; // 기본값은 매칭된 부분만
foreach (var tagPattern in tagPatterns)
{
// 매칭된 부분 앞에서 가장 가까운 태그 시작 찾기
var tagMatches = Regex.Matches(searchText, tagPattern, RegexOptions.IgnoreCase);
for (int i = tagMatches.Count - 1; i >= 0; i--)
{
var tagMatch = tagMatches[i];
if (tagMatch.Index < (matchIndex - startSearchIndex))
{
// 태그 이름 추출
var tagName = Regex.Match(tagMatch.Value, @"<(\w+)", RegexOptions.IgnoreCase).Groups[1].Value;
// 닫는 태그 찾기
var closeTagPattern = $@"</{tagName}[^>]*>";
var closeMatch = Regex.Match(searchText, closeTagPattern, RegexOptions.IgnoreCase);
if (closeMatch.Success && closeMatch.Index > (matchIndex - startSearchIndex))
{
// 상위 태그와 그 내용을 포함하여 반환
var startIdx = tagMatch.Index;
var endIdx = closeMatch.Index + closeMatch.Length;
resultContext = searchText.Substring(startIdx, Math.Min(endIdx - startIdx, 500)); // 최대 500자
return resultContext;
}
}
}
}
// 상위 태그를 찾지 못한 경우, 매칭 전후 50자씩 포함
var contextStart = Math.Max(0, matchIndex - 50);
var contextEnd = Math.Min(htmlContent.Length, matchIndex + matchLength + 50);
resultContext = htmlContent.Substring(contextStart, contextEnd - contextStart);
return resultContext;
}
catch (Exception ex)
{
Console.WriteLine($"ExtractResultContext 오류: {ex.Message}");
return match.Value; // 오류 시 매칭된 부분만 반환
}
}
// 페이지 변경을 감지하는 메서드
public async Task WaitForPageChange(WebDriverWait wait)
{
try
{
await Task.Delay(500);
// 페이지 로딩 상태 확인
wait.Until(d =>
{
var readyState = ((IJavaScriptExecutor)d).ExecuteScript("return document.readyState");
return readyState.Equals("complete");
});
// 검색 결과 페이지가 로드될 때까지 대기
wait.Until(d =>
{
try
{
// 검색결과가 없는 경우 확인
try
{
var noResultDiv = d.FindElement(By.CssSelector(".SearchResult .resultBook"));
if (noResultDiv.Text.Contains("검색결과가 없습니다"))
{
return true; // 검색결과 없음 페이지 로드 완료
}
}
catch
{
// 검색결과가 있는 경우로 진행
}
// 검색결과가 있는 경우 page_info 확인
try
{
var pageInfo = d.FindElement(By.CssSelector("p.page_info"));
var pageInfoText = pageInfo.Text;
// "전체 N건" 형식이 나타나면 로드 완료
return pageInfoText.Contains("전체") && pageInfoText.Contains("건");
}
catch
{
return false;
}
}
catch
{
return false;
}
});
}
catch (Exception ex)
{
// 모든 감지 방법이 실패하면 최소한의 대기 시간 적용
await Task.Delay(2000);
throw new Exception($"페이지 변경 감지 실패: {ex.Message}");
}
}
}
}