MapReduce는 완성된 상태로 배포되는 라이브러리 혹은 프로그램이 아닌 모델이다. 그러므로 자신의 환경에 맞는 MapReduce 시스템을 만들어야 한다. Nutch 역시 MapReduce 모델을 따르는 시스템을 구성했다.
Nutch는 crawl db에 URL을 삽입하는데에서 부터 시작하며, 아래와 같은 일련의 작업을 순환한다.
crawl db로 부터 url의 목록을 생성한다.
segment에서 url의 목록을 fetch한다.
segment에서 fetch한 컨텐츠를 분석(parse) 한다.
세그먼트로 부터 crawl db와 분석한 데이터를 업데이트 한다.
segments로 부터 invert 링크를 분석한다.
segment 문서와 anchor 문서에 대한 색인을 생성한다.
즉 아래와 같은 작업을 반복적으로 수행한다.
Contents
MapReduce 소개
MapReduce Diagram
Nutch Algorithms
자료구조 : CrawlDB
알고리즘
Inject 알고리즘
Generate 알고리즘
Fetch 알고리즘
Parse 알고리즘
Update CrawlDB 알고리즘
Invert Links 알고리즘
Index(색인) 알고리즘
Search(검색) 알고리즘
참고 문헌
Recent Posts
Archive Posts
Tags