nutchnutch는 공개 검색엔진인 Lucene을 좀더 발전시킨 형태로 개발하고 있는 진보된 공개 검색엔진이다. 기존에 발표된 문서수집/검색 알고리즘 뿐만 아니라, 최근에 발표된 다른 알고리즘도 반영되고 있으므로 검색엔진의 개발을 기획하는데 많은 도움을 줄 수 있을 것이라는 판단하에 nutch에 대한 분석을 하기로 했다. ...
검색엔진 검색은 망망대해에 투망을 던져서 원하는 고기를 잡는 행위에 비유되곤 한다. 이때 우리는 투망범위를 조절함으로써, 잡을 수 있는 물고기의 종류와 양을 어느정도 결정할 수 있을 것이다. 투망범위를 넓게하면 많은 물고기를 건져올릴 수 있겠지만 많은 물고기를 건져올린다는게 항상 좋은건 아니다. 원하지 않는 쓸데없는 물고기들도 잔뜩 올라와서 골라내는 작업...
SEO - 위키와 블로그의 활용몇 년간의 사이트관리 경험을 바탕으로 컨텐츠관리 노하우에 대해서 글을 써보려고 합니다. 양이 꽤 되기 때문에 나누어서 글을 쓸 계획입니다. 이글은 그 중 첫번째 글입니다.정보를 지배하는 자가 현재와 미래를 지배할 것이라는 얘기는 오래전부터 나왔지만 일반인 입장에서는 그리 와닿는 격언은 아니었던거 같다. 포탈, 인터넷 서비스회...
SEO - 검색엔진을 이용한 컨텐츠 최적화어느 정도 컨텐츠(쉽게할 수 있는 시도는 카테고리, 태그 클라우드 등을 활용하는게 되겠지만 얘들은 고유의 한계를 가지고 있다. 카테고리는 컨텐츠의 양이 적을 경우에는 괜찮지만 많을 경우 카테고리간 병합, 카테고리 분리와 같은 복잡한 문제가 발생한다. 거기에 카테고리를 분류하기 애매모호하거나 여러 관련된 카테고리를 ...
SEO - 검색엔진 최적화 결과2007/6/20일 현재 개인적으로 운영하는 wiki( Blog를 통한 배포. 배포경로가 두개가 된다는 점외에도 커뮤니티 형성이 가능하다는 장점이 있다. 우리나라에서 wiki( 문서 타이틀의 재작성 이와 관련된 얘기는 에 정리해둔걸 읽어 보기 바란다. 주로 문서의 특성이 최대한 잘 들어나게끔 제목을 재작성하는데, 많은 노력을...
검색은 권력이다.자동검색 제공 의무화 특별법 제정을 추진한다고 한다. 자세한 내용은 을 참고하기 바란다.요점은 사용자에게 하여금 인위적으로 순위기 결정되지 않는 순수한 기계 알고리즘에 의한 검색결과를 얻을 수 있는 선택권을 확보하도록 하며, 이것을 법제화 하겠다는 거다.여기에 대해서 의견이 분분한거 같다. 대체적으로는 그러한 결정 자체가 잘못되었다는 쪽인...
ngram 색인기형태소분석기를 이용하는 색인기를 만들면 좋겠으나 워낙에 많은 시간이 필요로 하니, 우선 ngram방식의 색인기를 만들기로 했다. 어절은 마침표,따움표,쉼표,공백문자를 기준으로 하기로 했다. n-gram방식은 prefix를 중요하게 생각하기로 했다. 예를 들어 "검색엔진"을 전통적인 2-gram으로 나눈다면, 1. 검색, 색엔, 엔진이 만...
구글 사이트 관리자 도구 검색엔진의 경쟁력은 얼마나 많은 양질의 웹문서에 대한 Index(색인)결과를 가지고 있느냐에 달려있다. 구글이 세계최고의 회사중 하나가 된데에는 방대한 양의 웹색인 문서를 가지고 있기 때문이다. 구글 연구소에서 개발된 선도적인 기술들 덕분이다. 그러나 문제가 있다. 워낙에 방대한 양의 문서들이 생기기 때문에, 웹문서를 crawl...
41 POSTS HERE
nutch
nutchnutch는 공개 검색엔진인 Lucene을 좀더 발전시킨 형태로 개발하고 있는 진보된 공개 검색엔진이다. 기존에 발표된 문서수집/검색 알고리즘 뿐만 아니라, 최근에 발표된 다른 알고리즘도 반영되고 있으므로 검색엔진의 개발을 기획하는데 많은 도움을 줄 수 있을 것이라는 판단하에 nutch에 대한 분석을 하기로 했다. ...
검색엔진 : precision & recall
검색엔진 검색은 망망대해에 투망을 던져서 원하는 고기를 잡는 행위에 비유되곤 한다. 이때 우리는 투망범위를 조절함으로써, 잡을 수 있는 물고기의 종류와 양을 어느정도 결정할 수 있을 것이다. 투망범위를 넓게하면 많은 물고기를 건져올릴 수 있겠지만 많은 물고기를 건져올린다는게 항상 좋은건 아니다. 원하지 않는 쓸데없는 물고기들도 잔뜩 올라와서 골라내는 작업...
SEO - 위키와 블로그의 활용
SEO - 위키와 블로그의 활용몇 년간의 사이트관리 경험을 바탕으로 컨텐츠관리 노하우에 대해서 글을 써보려고 합니다. 양이 꽤 되기 때문에 나누어서 글을 쓸 계획입니다. 이글은 그 중 첫번째 글입니다.정보를 지배하는 자가 현재와 미래를 지배할 것이라는 얘기는 오래전부터 나왔지만 일반인 입장에서는 그리 와닿는 격언은 아니었던거 같다. 포탈, 인터넷 서비스회...
SEO - 검색엔진을 이용한 컨텐츠 최적화
SEO - 검색엔진을 이용한 컨텐츠 최적화어느 정도 컨텐츠(쉽게할 수 있는 시도는 카테고리, 태그 클라우드 등을 활용하는게 되겠지만 얘들은 고유의 한계를 가지고 있다. 카테고리는 컨텐츠의 양이 적을 경우에는 괜찮지만 많을 경우 카테고리간 병합, 카테고리 분리와 같은 복잡한 문제가 발생한다. 거기에 카테고리를 분류하기 애매모호하거나 여러 관련된 카테고리를 ...
SEO - 검색엔진 최적화 결과
SEO - 검색엔진 최적화 결과2007/6/20일 현재 개인적으로 운영하는 wiki( Blog를 통한 배포. 배포경로가 두개가 된다는 점외에도 커뮤니티 형성이 가능하다는 장점이 있다. 우리나라에서 wiki( 문서 타이틀의 재작성 이와 관련된 얘기는 에 정리해둔걸 읽어 보기 바란다. 주로 문서의 특성이 최대한 잘 들어나게끔 제목을 재작성하는데, 많은 노력을...
검색은 권력이다.
검색은 권력이다.자동검색 제공 의무화 특별법 제정을 추진한다고 한다. 자세한 내용은 을 참고하기 바란다.요점은 사용자에게 하여금 인위적으로 순위기 결정되지 않는 순수한 기계 알고리즘에 의한 검색결과를 얻을 수 있는 선택권을 확보하도록 하며, 이것을 법제화 하겠다는 거다.여기에 대해서 의견이 분분한거 같다. 대체적으로는 그러한 결정 자체가 잘못되었다는 쪽인...
검색엔진 : Vector Space Model
검색엔진 term vector model이라고도 불리우는 Vector space model 은 정보필터링, 문서내에서의 정보검색, 색인과 유사도를 계산하기 위한 수학모델로, 다차원 선형공간에서의 Vector(문서는 색인(https TF IDF Weight = TF IDF 문서 d가 있다면, Vector d는 https에서 httpsIDF에서 |D|는 ...
ngram 색인기
ngram 색인기형태소분석기를 이용하는 색인기를 만들면 좋겠으나 워낙에 많은 시간이 필요로 하니, 우선 ngram방식의 색인기를 만들기로 했다. 어절은 마침표,따움표,쉼표,공백문자를 기준으로 하기로 했다. n-gram방식은 prefix를 중요하게 생각하기로 했다. 예를 들어 "검색엔진"을 전통적인 2-gram으로 나눈다면, 1. 검색, 색엔, 엔진이 만...
구글 사이트 관리자 도구 : Google Sitemap
구글 사이트 관리자 도구 검색엔진의 경쟁력은 얼마나 많은 양질의 웹문서에 대한 Index(색인)결과를 가지고 있느냐에 달려있다. 구글이 세계최고의 회사중 하나가 된데에는 방대한 양의 웹색인 문서를 가지고 있기 때문이다. 구글 연구소에서 개발된 선도적인 기술들 덕분이다. 그러나 문제가 있다. 워낙에 방대한 양의 문서들이 생기기 때문에, 웹문서를 crawl...