Recommanded Free YOUTUBE Lecture: <% selectedImage[1] %>

소개

Crawling에서 우리는 nutch를 이용해서 문서를 수집하는 방법과 어떤 내용들이 어떤식으로 저장되는지에 대략적으로 알아보았다. 이 문서에서는 search를 하는 방법에 대해서 알아보도록 하겠다. Nutch의 crawler 시스템의 데이터 구조체의 핵심은 아래와 같음을 기억하고 있을 것이다.
  1. WebDB는 패이지와 링크의 Web 그래프를 포함한다.
  2. segments는 웹으로 부터 수집한 문서의 원문을 포함한다.
  3. segments의 문서는 색인을 만들며, 색인을 합치는 과정에서 중복된 문서를 제거하게 된다.
Nutch의 검색은 유저의 질의를 받아들여서, nutch의 crawling과정중에서 만들어진 색인(index)와 segments를 검색함으로써 이루어진다.

Search 애플리케이션 실행

Nutch의 검색서비스는 tomcat(:12)환경에서 실행된다. tomcat(:12)환경을 만들었다면, 우선 Nutch 웹 애플리케이션을 설치해야 한다.

# rm -rf ~/tomcat/webapps/ROOT*
# cp nutch*.war ~/tomcat/webapps/ROOT.war

이제 WEB-INF/classes/nutch-site.xml파일을 아래와 같이 수정한다.
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="nutch-conf.xsl"?>

<!-- 검색에 참고할 수집문서가 있는 디렉토리를 명시한다. -->
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>/usr/local/search/joinc.test</value>
</property>
</nutch-conf>
설정을 맞쳤다면, tomcat을 재가동시킨후 8080포트로 검색테스트를 할 수 있다.