Nutch Hadoop 설치 운용 문서

Nutch Hadoop 설치 운용 문서 .. 좀 오래된 문서라서, 지금 상황 (2008/10/22)에 맞도록 수정할 계획임)Hadoop은 분산(distributed file system)으로 MapReduce(이 문서는 Nutch와 Hadoop의 구조적인 부분을 설명하지는 않을 것이다. 단지 설치하고 운용하는데에 촛점을 맞출 것이다. 원문은 ht...

테스트 환경 만들기

테스트 환경 만들기검색엔진의 이론적 기본은 이미 5년전전에 완성되었으며, 발표된 이론을 거의 대부분 수용하고 있는 lucene 검색엔진까지 개발된 상태다. 현재로써는 새로운 검색엔진의 개발이라는 목표를 세울 필요도 없다. 몇가지 할일이라고는 검색을 최적화 하기 위해서 몇몇 수식을 약간씩 고치는 정도이겠지만 별 의미 없는 일이라고 생각된다. 그거 약간 고친...

nutch에서의 MapReduce

nutch에서의 MapReduce 문서의 내용은 완성된 상태가 아니다. nutch소스코드를 분석하면 완성된 문서가 만들어질 것이다.MapReduce는 Google( 1. http 1. attachmentMapReduce는 완성된 상태로 배포되는 라이브러리 혹은 프로그램이 아닌 모델이다. 그러므로 자신의 환경에 맞는 MapReduce 시스템을 만들어...

nutch 개발환경 만들기

nutch 개발환경 만들기eclipse( ...

nutch 검색 테스트

nutch 검색 테스트에서 우리는 nutch를 이용해서 문서를 수집하는 방법과 어떤 내용들이 어떤식으로 저장되는지에 대략적으로 알아보았다. 이 문서에서는 search를 하는 방법에 대해서 알아보도록 하겠다. Nutch의 crawler 시스템의 데이터 구조체의 핵심은 아래와 같음을 기억하고 있을 것이다. 1. WebDB는 패이지와 링크의 Web 그래프를 ...

검색엔진에 있어서의 검색속도 문제

검색엔진에 있어서의 검색속도 문제 문서를 scoreing하고 정렬해서 TopN문서를 가져오는 검색엔진의 이론적인 기반은 5년전에 완성되었다. 게다가 문서를 효과적으로 수집해서 색인 테이블을 만드는 과정역시 별로 손볼 필요도 없을 정도의 경지에 이미 도달해있다.문제는 이론이 아니고, 시스템이다. 하나의 시스템에서 소규모로 크롤링하고 색인 테이블 만들고 검색...

lucene 쿼리및 검색 분석

lucene 쿼리및 검색 분석 1. 대략의 소스흐름은 이해했다고 생각됨으로, 순수 프로시져 코드로 나타낸다. 1. 필요할 경우 이미지화 한다. 1. 수식이 의미하는 바를 명확히 한다. 1. 용어 정리 field, term did,이 문서는 완성단계의 문서가 아니다. lucene 구문분석과 lucene searcher의 분석을 위한 메모장 형식의 문서다....

Lucene

Lucene2007년 후에 루신에서 손을 뗐다. 그동안 잊고 지냈는데, 지금껏 joinc 컨텐츠 검색을 위해서 사용하는 구글 커스텀 검색이 맘에 들지 않는다. Ajax 기반이라서 결과를 편집할 수 없는게 가장 큰 문제. 구글 Site 검색을 이용하면 결과를 XML로 받을 수 있으니 마음대로 편집할 수 있지만 이거 돈내야 한다. 쿼리횟수별로 가격이 정해지는...

루신 색인 파일 포맷

루신 색인 파일 포맷이 문서는 루신 3.0.x를 기준으로 색인 파일 형식에 대한 내용을 담고 있습니다.아파치 루신은 원래 자바 언어로 개발했지만, 다른 여러 언어로 된 루신 응용이 있습니다. 루신의 색인파일은 언어에 독립적이므로 어떤언어로든 개발할 수 있다.루신 색인에서 중요한 요소는 Index(색인), document(문서), field(필드) 그리고 ...

관계정보 추출을 위한 말뭉치의 정규화에 대한 연구

관계정보 추출을 위한 말뭉치의 정규화에 대한 연구성명 소속 키워드 주소 우편 번호 전화 번호 FAX 번호 E-mail ----대량의 말뭉치를 이용해 여러 가지 일반적인 언어 현상을 관찰하고, 언어 정보를 자동으로 추출하여 자연 언어 처리의 여러 분야에 이용하는 연구가 활발히 진행되고 있다. 이에 따라 말뭉치에 대한 필요성이 날로 증가하고 있다. 말뭉치에서...