MapReduce

MapReduceMapReduce는 대량의 자원을 다루는 분산/병렬 시스템의 효율적인 지원을 위한 목적으로 Google( 1. 병렬처리 1. fault-tolerance 1. 데이터분산 및 로드밸런싱 용어에서 알 수 있듯이 MapReduce(Map은 사용자 정의 자료구조이며, 입력데이터에서 Key/Value 쌍으로 이루어진 중간 데이터 형태의 데이터를...

검색엔진및 검색서비스

검색엔진및 검색서비스 ...

검색엔진 : Boolean Model

검색엔진 Boolean Model은 정보검색(불리언 모델은 사용자 쿼리로 부터 주어진 Term을 포함한 문서를 찾는다고 하면, 해당 문서가 Term을 포함하고 있는지 (true), 아닌지 (false)에 대한 정보만을 가지고 문서를 찾아낸다. 매우 단순하고 효율적이며 빠른 구현이 가능하지만, 문헌의 우선순위나 사용자 질의에 대한 가중치등을 부여할 수 없기...

검색엔진 : Density based model

검색엔진 공개 검색엔진(루신은 vector A B C 검색어는 구글 검색 엔진 이라고 가정해보자. 3문서 모두다 "구글 검색 엔진"을 포함하고 있으며, TF(A 번 문서는 "구글 검색 엔진"이 모두 동일한 위치에서 높은 밀도로 발생했으며, C 번 문서는 각각 다른 장소에서 낮은 밀도로 발생하고 있다. 그렇다면 A 문서가 더 높은 값을 가지도록 계산요소...

검색엔진 : 확장 불리언 모델 (Extended Boolean Model)

검색엔진 원래는 boolean(boolean model은 IR(Information retrive)을 위한 가장 전통적인 모델이다. 불리언 모델은 그 이름에서 알 수 있듯이, AND, OR, NOT 연산을 이용한다. 불리언 모델은 간결하며, 빠르지만 문서 유사도를 계산할 수 없다는 단점을 가진다. 이 단점은 문서의 양이 많아질때 두드러진다. 때문에 문서정...

색인 DB의 생성

색인 DB의 생성 이글은 를 위한 준비단계의 문서다. 가볍게 읽으면 될 것 같다. 오래전에 작성한 글이라서 수정해야 될 곳이 많지만 귀찮으니 그냥 이대로 유지.검색엔진은 단어단위로 이루어진다. 우리가 Linux라는 단어를 검색 keyword로 사용한다함은 Linux란 단어를 포함한 문서명과 링크정보를 검색시스템에 요구하는 것이다. 그러므로 검색시스템은 ...

Lucene 분석

Lucene 분석 루신 분석관련 위키페이지 기존에 만들어져 있던 루신 페이지는 지금페이지의 하위 카테고리 형식으로 정리한다....

Lucene Index

Lucene Index...

Lucen 색인 파일 구조

Lucen 색인 파일 구조문서를 파싱해서 색인으로할 단어의 목록을 만드는건 그리 어려운일이 아니라고 생각된다. 그러나 빠른 검색을 위한 색인 DB포맷을 만드는건 쉬운일이 아니며, 고려해야할 사항들이 많다. 수천만개의 색인 단어에서 원하는 단어를 찾아내어서 가중치 별로 순위를 매긴다거나 boolean, fuzzy, 문장, grouping, field 등의 ...

구글 사이트 관리자 도구 : Google Sitemap

구글 사이트 관리자 도구 검색엔진의 경쟁력은 얼마나 많은 양질의 웹문서에 대한 Index(색인)결과를 가지고 있느냐에 달려있다. 구글이 세계최고의 회사중 하나가 된데에는 방대한 양의 웹색인 문서를 가지고 있기 때문이다. 구글 연구소에서 개발된 선도적인 기술들 덕분이다. 그러나 문제가 있다. 워낙에 방대한 양의 문서들이 생기기 때문에, 웹문서를 crawl...