Crawling에서 우리는 nutch를 이용해서 문서를 수집하는 방법과 어떤 내용들이 어떤식으로 저장되는지에 대략적으로 알아보았다. 이 문서에서는 search를 하는 방법에 대해서 알아보도록 하겠다. Nutch의 crawler 시스템의 데이터 구조체의 핵심은 아래와 같음을 기억하고 있을 것이다.
WebDB는 패이지와 링크의 Web 그래프를 포함한다.
segments는 웹으로 부터 수집한 문서의 원문을 포함한다.
segments의 문서는 색인을 만들며, 색인을 합치는 과정에서 중복된 문서를 제거하게 된다.
Nutch의 검색은 유저의 질의를 받아들여서, nutch의 crawling과정중에서 만들어진 색인(index)와 segments를 검색함으로써 이루어진다.
Search 애플리케이션 실행
Nutch의 검색서비스는 tomcat(:12)환경에서 실행된다. tomcat(:12)환경을 만들었다면, 우선 Nutch 웹 애플리케이션을 설치해야 한다.
소개
Search 애플리케이션 실행
Recent Posts
Archive Posts
Tags