- 모든 도서관 검색기에서 검색결과 없음시 구체적인 HTML 조각 추출 - BookSearchResult에 Resulthtml 속성 추가하여 매칭된 HTML 컨텍스트 저장 - Helper_LibraryDelaySettings.cs 추가로 도서관별 검색 지연시간 XML 저장 - Check_copyWD.cs에 dvc_resulthtml 컬럼 표시 및 지연시간 저장 UI 구현 - 15개 SearchModel 파일에서 htmlContent 1000자 자르기를 의미있는 메시지로 교체 - HTTP 검색기들에 한글 인코딩 문제 해결을 위한 헤더 개선 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>
468 lines
19 KiB
C#
468 lines
19 KiB
C#
using System;
|
|
using System.Threading.Tasks;
|
|
using System.Text.RegularExpressions;
|
|
using OpenQA.Selenium;
|
|
using OpenQA.Selenium.Support.UI;
|
|
using System.Threading;
|
|
using OpenQA.Selenium.Chromium;
|
|
using UniMarc.SearchModel;
|
|
|
|
namespace BokBonCheck
|
|
{
|
|
public class MuanLibSearcher : ILibrarySearcher
|
|
{
|
|
public string AreaCode { get; set; } = string.Empty;
|
|
public string SiteName { get; protected set; }
|
|
public string SiteUrl => "https://lib.muan.go.kr/BookSearch/detail";
|
|
public bool HttpApiMode { get; set; } = false;
|
|
|
|
public int No { get; set; }
|
|
|
|
private ChromiumDriver _driver;
|
|
|
|
public MuanLibSearcher(int no, string areaCode, string areaName)
|
|
{
|
|
this.No = no;
|
|
this.AreaCode = areaCode;
|
|
this.SiteName = $"무안군립({areaName})";
|
|
}
|
|
|
|
public async Task StartDriver(bool showdriver = false)
|
|
{
|
|
if (_driver == null)
|
|
{
|
|
try
|
|
{
|
|
if (SeleniumHelper.IsReady == false) await SeleniumHelper.Download();
|
|
_driver = await SeleniumHelper.CreateDriver(ShowBrowser: showdriver);
|
|
Console.WriteLine("MuanLibSearcher Driver 초기화 완료");
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
Console.WriteLine($"MuanLibSearcher Driver 초기화 실패: {ex.Message}");
|
|
throw new InvalidOperationException($"MuanLibSearcher Driver 초기화에 실패했습니다: {ex.Message}", ex);
|
|
}
|
|
}
|
|
}
|
|
|
|
public void StopDriver()
|
|
{
|
|
if (_driver != null)
|
|
{
|
|
_driver.Quit();
|
|
_driver.Dispose();
|
|
_driver = null;
|
|
}
|
|
}
|
|
|
|
public async Task<BookSearchResult> SearchAsync(string searchTerm)
|
|
{
|
|
var result = new BookSearchResult
|
|
{
|
|
SiteName = SiteName,
|
|
SearchTerm = searchTerm,
|
|
SearchTime = DateTime.Now
|
|
};
|
|
|
|
try
|
|
{
|
|
// 드라이버가 없으면 자동으로 시작
|
|
if (_driver == null)
|
|
{
|
|
await StartDriver();
|
|
}
|
|
|
|
var cururl = _driver.Url;
|
|
if (cururl.Equals(SiteUrl) == false)
|
|
_driver.Navigate().GoToUrl(SiteUrl);
|
|
|
|
// 페이지 로딩 대기
|
|
var wait = new WebDriverWait(_driver, TimeSpan.FromSeconds(15));
|
|
|
|
// 완전한 페이지 로딩 대기
|
|
await WaitForCompletePageLoad(wait);
|
|
|
|
// 페이지 로드 후 브라우저 배율을 80%로 설정
|
|
try
|
|
{
|
|
if (_driver.Manage().Window.Size.Width > 0)
|
|
{
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("document.body.style.zoom = '0.8';");
|
|
Console.WriteLine("페이지 로드 후 브라우저 배율을 80%로 설정했습니다.");
|
|
}
|
|
}
|
|
catch (Exception zoomEx)
|
|
{
|
|
Console.WriteLine($"페이지 배율 설정 실패: {zoomEx.Message}");
|
|
}
|
|
|
|
// 검색어 입력
|
|
try
|
|
{
|
|
var searchInput = wait.Until(d => d.FindElement(By.Id("queryTitle")));
|
|
|
|
// 요소가 보이도록 스크롤
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].scrollIntoView(true);", searchInput);
|
|
Thread.Sleep(300);
|
|
|
|
// 기존 값 제거
|
|
searchInput.Clear();
|
|
|
|
// 포커스 설정
|
|
//searchInput.Click();
|
|
//Thread.Sleep(200);
|
|
|
|
// 검색어 입력 (여러 방법 시도)
|
|
try
|
|
{
|
|
searchInput.SendKeys(searchTerm);
|
|
}
|
|
catch
|
|
{
|
|
// SendKeys 실패시 JavaScript로 직접 값 설정
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].value = arguments[1];", searchInput, searchTerm);
|
|
}
|
|
|
|
// JavaScript 이벤트 발생시키기
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].dispatchEvent(new Event('input', { bubbles: true }));", searchInput);
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].dispatchEvent(new Event('change', { bubbles: true }));", searchInput);
|
|
|
|
Thread.Sleep(200);
|
|
|
|
// 입력된 값 확인
|
|
var inputValue = searchInput.GetAttribute("value");
|
|
Console.WriteLine($"검색어 '{searchTerm}' 입력 완료, 실제 값: '{inputValue}'");
|
|
|
|
if (string.IsNullOrEmpty(inputValue) || !inputValue.Equals(searchTerm))
|
|
{
|
|
Console.WriteLine("검색어 입력 재시도...");
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].value = arguments[1];", searchInput, searchTerm);
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].dispatchEvent(new Event('input', { bubbles: true }));", searchInput);
|
|
Thread.Sleep(300);
|
|
}
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
result.ErrorMessage = $"검색어입력실패({ex.Message})";
|
|
result.BookCount = -1;
|
|
result.IsSuccess = false;
|
|
return result;
|
|
}
|
|
|
|
// 검색 버튼 클릭
|
|
try
|
|
{
|
|
var searchButton = wait.Until(d => d.FindElement(By.CssSelector("button.btn.btn-lg[type='submit']")));
|
|
|
|
// 버튼이 보이도록 스크롤
|
|
//((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].scrollIntoView(true);", searchButton);
|
|
//Thread.Sleep(300);
|
|
|
|
Console.WriteLine("검색 버튼 클릭 시도...");
|
|
|
|
// 검색 버튼 클릭 (여러 방법 시도)
|
|
try
|
|
{
|
|
searchButton.Click();
|
|
Console.WriteLine("일반 클릭 성공");
|
|
}
|
|
catch
|
|
{
|
|
try
|
|
{
|
|
// JavaScript 클릭 시도
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].click();", searchButton);
|
|
Console.WriteLine("JavaScript 클릭 성공");
|
|
}
|
|
catch
|
|
{
|
|
// 폼 제출로 시도
|
|
var form = _driver.FindElement(By.TagName("form"));
|
|
((IJavaScriptExecutor)_driver).ExecuteScript("arguments[0].submit();", form);
|
|
Console.WriteLine("폼 제출 성공");
|
|
}
|
|
}
|
|
|
|
Console.WriteLine("검색 실행 완료");
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
result.ErrorMessage = $"검색버튼클릭실패({ex.Message})";
|
|
result.BookCount = -1;
|
|
result.IsSuccess = false;
|
|
return result;
|
|
}
|
|
|
|
// 페이지 변경을 감지하는 메서드
|
|
await WaitForPageChange(new WebDriverWait(_driver, TimeSpan.FromSeconds(15)));
|
|
|
|
var htmlContent = _driver.PageSource;
|
|
var resultCount = ExtractBookCount(htmlContent, out string ermsg, out string resultHtml);
|
|
result.Resulthtml = resultHtml;
|
|
if (resultCount == -1)
|
|
{
|
|
result.BookCount = 0;
|
|
result.IsSuccess = false;
|
|
result.ErrorMessage = ermsg;
|
|
}
|
|
else
|
|
{
|
|
result.BookCount = resultCount;
|
|
result.IsSuccess = true;
|
|
result.ErrorMessage = ermsg;
|
|
}
|
|
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
result.IsSuccess = false;
|
|
result.ErrorMessage = ex.Message;
|
|
result.BookCount = 0;
|
|
}
|
|
|
|
return result;
|
|
}
|
|
|
|
private int ExtractBookCount(string htmlContent, out string errmessage, out string resulthtml)
|
|
{
|
|
errmessage = string.Empty;
|
|
resulthtml = string.Empty;
|
|
|
|
try
|
|
{
|
|
// 검색 결과가 없다는 메시지 확인
|
|
var noResultPatterns = new[]
|
|
{
|
|
@"검색결과가 없습니다",
|
|
@"검색된 자료가 없습니다",
|
|
@"자료가 없습니다",
|
|
@"전체 <strong>0</strong> 건"
|
|
};
|
|
|
|
foreach (var pattern in noResultPatterns)
|
|
{
|
|
if (htmlContent.Contains(pattern))
|
|
{
|
|
errmessage = "검색결과없음";
|
|
// 검색결과 없음 메시지를 포함한 HTML 조각 추출
|
|
var index = htmlContent.IndexOf(pattern);
|
|
if (index >= 0)
|
|
{
|
|
var startIndex = Math.Max(0, index - 100);
|
|
var endIndex = Math.Min(htmlContent.Length, index + pattern.Length + 100);
|
|
resulthtml = htmlContent.Substring(startIndex, endIndex - startIndex);
|
|
|
|
// 상위 태그 찾기 시도
|
|
try
|
|
{
|
|
var match = System.Text.RegularExpressions.Regex.Match(htmlContent, pattern);
|
|
if (match.Success)
|
|
{
|
|
resulthtml = ExtractResultContext(htmlContent, match);
|
|
}
|
|
}
|
|
catch
|
|
{
|
|
// 실패시 기본 추출 결과 사용
|
|
}
|
|
}
|
|
else
|
|
{
|
|
resulthtml = pattern;
|
|
}
|
|
return 0;
|
|
}
|
|
}
|
|
|
|
// HTML에서 다양한 패턴 찾기
|
|
var htmlPatterns = new[]
|
|
{
|
|
@"전체\s*<strong>\s*(\d+)\s*</strong>\s*건",
|
|
@"<strong>\s*(\d+)\s*</strong>\s*건",
|
|
@"총\s*(\d+)\s*건"
|
|
};
|
|
|
|
foreach (var pattern in htmlPatterns)
|
|
{
|
|
var match = Regex.Match(htmlContent, pattern, RegexOptions.IgnoreCase);
|
|
if (match.Success)
|
|
{
|
|
if (int.TryParse(match.Groups[1].Value, out int count))
|
|
{
|
|
// 매칭된 부분과 상위 태그 추출하여 resulthtml에 저장
|
|
resulthtml = ExtractResultContext(htmlContent, match);
|
|
|
|
if (count == 0)
|
|
{
|
|
errmessage = "검색결과없음";
|
|
return 0;
|
|
}
|
|
errmessage = $"검색성공({count}권)";
|
|
return count;
|
|
}
|
|
}
|
|
}
|
|
|
|
errmessage = "결과수량을찾을수없음";
|
|
resulthtml = "결과수량을찾을수없음";
|
|
return -1;
|
|
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
errmessage = ex.Message;
|
|
resulthtml = "ExtractBookCount 오류: " + ex.Message;
|
|
return -1;
|
|
}
|
|
}
|
|
|
|
/// <summary>
|
|
/// 매칭된 결과와 그 상위 태그를 추출
|
|
/// </summary>
|
|
private string ExtractResultContext(string htmlContent, Match match)
|
|
{
|
|
try
|
|
{
|
|
var matchIndex = match.Index;
|
|
var matchLength = match.Length;
|
|
|
|
// 매칭된 위치 앞쪽에서 상위 태그 시작 찾기
|
|
var startSearchIndex = Math.Max(0, matchIndex - 200); // 매칭 위치 200자 전부터 검색
|
|
var searchText = htmlContent.Substring(startSearchIndex, matchIndex - startSearchIndex + matchLength + Math.Min(200, htmlContent.Length - matchIndex - matchLength));
|
|
|
|
// 상위 태그 패턴들 (div, p, h1-h6, span 등)
|
|
var tagPatterns = new[] { @"<(div|p|h[1-6]|span|section|article)[^>]*>", @"<[^>]+>" };
|
|
|
|
string resultContext = match.Value; // 기본값은 매칭된 부분만
|
|
|
|
foreach (var tagPattern in tagPatterns)
|
|
{
|
|
// 매칭된 부분 앞에서 가장 가까운 태그 시작 찾기
|
|
var tagMatches = Regex.Matches(searchText, tagPattern, RegexOptions.IgnoreCase);
|
|
|
|
for (int i = tagMatches.Count - 1; i >= 0; i--)
|
|
{
|
|
var tagMatch = tagMatches[i];
|
|
if (tagMatch.Index < (matchIndex - startSearchIndex))
|
|
{
|
|
// 태그 이름 추출
|
|
var tagName = Regex.Match(tagMatch.Value, @"<(\w+)", RegexOptions.IgnoreCase).Groups[1].Value;
|
|
|
|
// 닫는 태그 찾기
|
|
var closeTagPattern = $@"</{tagName}[^>]*>";
|
|
var closeMatch = Regex.Match(searchText, closeTagPattern, RegexOptions.IgnoreCase);
|
|
|
|
if (closeMatch.Success && closeMatch.Index > (matchIndex - startSearchIndex))
|
|
{
|
|
// 상위 태그와 그 내용을 포함하여 반환
|
|
var startIdx = tagMatch.Index;
|
|
var endIdx = closeMatch.Index + closeMatch.Length;
|
|
resultContext = searchText.Substring(startIdx, Math.Min(endIdx - startIdx, 500)); // 최대 500자
|
|
return resultContext;
|
|
}
|
|
}
|
|
}
|
|
}
|
|
|
|
// 상위 태그를 찾지 못한 경우, 매칭 전후 50자씩 포함
|
|
var contextStart = Math.Max(0, matchIndex - 50);
|
|
var contextEnd = Math.Min(htmlContent.Length, matchIndex + matchLength + 50);
|
|
resultContext = htmlContent.Substring(contextStart, contextEnd - contextStart);
|
|
|
|
return resultContext;
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
Console.WriteLine($"ExtractResultContext 오류: {ex.Message}");
|
|
return match.Value; // 오류 시 매칭된 부분만 반환
|
|
}
|
|
}
|
|
|
|
// 완전한 페이지 로딩 대기 메서드
|
|
private async Task WaitForCompletePageLoad(WebDriverWait wait)
|
|
{
|
|
try
|
|
{
|
|
Console.WriteLine("완전한 페이지 로딩 대기 시작...");
|
|
|
|
// 1. document.readyState가 'complete'가 될 때까지 대기
|
|
wait.Until(d =>
|
|
{
|
|
var readyState = ((IJavaScriptExecutor)d).ExecuteScript("return document.readyState");
|
|
return readyState.Equals("complete");
|
|
});
|
|
|
|
Console.WriteLine("document.readyState = complete");
|
|
|
|
// 2. jQuery가 로드되고 ready 상태까지 대기 (만약 사용한다면)
|
|
try
|
|
{
|
|
wait.Until(d =>
|
|
{
|
|
var jqueryReady = ((IJavaScriptExecutor)d).ExecuteScript("return typeof jQuery !== 'undefined' && jQuery.active == 0");
|
|
return jqueryReady.Equals(true);
|
|
});
|
|
Console.WriteLine("jQuery ready 완료");
|
|
}
|
|
catch
|
|
{
|
|
Console.WriteLine("jQuery 없음 또는 대기 생략");
|
|
}
|
|
|
|
// 3. 추가 대기 시간
|
|
await Task.Delay(10);
|
|
|
|
// 4. 검색 입력창이 실제로 존재하고 상호작용 가능할 때까지 대기
|
|
//wait.Until(d =>
|
|
//{
|
|
// try
|
|
// {
|
|
// var searchInput = d.FindElement(By.Id("queryTitle"));
|
|
// return searchInput != null && searchInput.Displayed && searchInput.Enabled;
|
|
// }
|
|
// catch
|
|
// {
|
|
// return false;
|
|
// }
|
|
//});
|
|
|
|
//Console.WriteLine("검색 입력창 준비 완료");
|
|
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
Console.WriteLine($"페이지 로딩 대기 중 오류: {ex.Message}");
|
|
// 오류가 발생해도 최소한의 대기 시간 적용
|
|
await Task.Delay(3000);
|
|
}
|
|
}
|
|
|
|
public async Task WaitForPageChange(WebDriverWait wait)
|
|
{
|
|
try
|
|
{
|
|
// 방법 4: 페이지 로딩 상태 확인
|
|
wait.Until(d =>
|
|
{
|
|
var readyState = ((IJavaScriptExecutor)d).ExecuteScript("return document.readyState");
|
|
return readyState.Equals("complete");
|
|
});
|
|
|
|
// 방법 5: 특정 텍스트가 페이지에 나타날 때까지 대기
|
|
wait.Until(d =>
|
|
{
|
|
var elm = d.FindElement(By.TagName("body"));
|
|
if (elm == null) return false;
|
|
var pageText = elm.Text;
|
|
return pageText.Contains("전체") || pageText.Contains("건") || pageText.Contains("검색결과");
|
|
});
|
|
}
|
|
catch (Exception ex)
|
|
{
|
|
// 모든 감지 방법이 실패하면 최소한의 대기 시간 적용
|
|
await Task.Delay(2000);
|
|
throw new Exception($"페이지 변경 감지 실패: {ex.Message}");
|
|
}
|
|
}
|
|
}
|
|
} |