·ç½Å »öÀÎ ÆÄÀÏ Æ÷¸Ë
ÃÑ ÆäÀÌÁö ¼ö : 3224

Àüü ÇÔ¼ö/¿ë¾î»çÀü
Facebook Joinc ±×·ì   Joinc QA »çÀÌÆ®



joinc´Â Firefox¿Í chrome¿¡¼­ Å×½ºÆ® Çß½À´Ï´Ù. IE¿¡¼­´Â Å×À̺íÀÌ ±úÁö°Å³ª À̹ÌÁö°¡ º¸ÀÌÁö ¾ÊÀ» ¼ö ÀÖ½À´Ï´Ù. ƯÈ÷ ±¸±Û DocsÀ̹ÌÁöÀÇ °æ¿ì ¿¢¹Úó¸®µÉ ¼ö ÀÖ½À´Ï´Ù.

Contents

1 »öÀÎ ÆÄÀÏ Æ÷¸Ë
1.1 Á¤ÀÇ
1.2 Inverted Indexing
1.3 Çʵå
1.4 ¼¼±×¸ÕÆ® (Segments)
1.5 ¹®¼­ ¹øÈ£ (Document Numbers)
1.6 Overview
1.7 ÆÄÀÏ ³×À̹Ö
1.8 ÆÄÀÏ È®ÀåÀÚ ¿ä¾à
1.9 ±âº» µ¥ÀÌÅÍ Çü
1.9.1 Byte
1.9.2 UInt32
1.9.3 Uint64
1.9.4 VInt
1.9.5 Chars
1.9.6 String
1.9.7 Ciompound Types
1.10 Compound Types

1 »öÀÎ ÆÄÀÏ Æ÷¸Ë

ÀÌ ¹®¼­´Â ·ç½Å 3.0.x¸¦ ±âÁØÀ¸·Î »öÀÎ ÆÄÀÏ Çü½Ä¿¡ ´ëÇÑ ³»¿ëÀ» ´ã°í ÀÖ½À´Ï´Ù.

¾ÆÆÄÄ¡ ·ç½ÅÀº ¿ø·¡ ÀÚ¹Ù ¾ð¾î·Î °³¹ßÇßÁö¸¸, ´Ù¸¥ ¿©·¯ ¾ð¾î·Î µÈ ·ç½Å ÀÀ¿ëÀÌ ÀÖ½À´Ï´Ù. ·ç½ÅÀÇ »öÀÎÆÄÀÏÀº ¾ð¾î¿¡ µ¶¸³ÀûÀ̹ǷΠ¾î¶²¾ð¾î·Îµç °³¹ßÇÒ ¼ö ÀÖ´Ù.

1.1 Á¤ÀÇ

·ç½Å »öÀο¡¼­ Áß¿äÇÑ ¿ä¼Ò´Â Index(»öÀÎ), document(¹®¼­), field(Çʵå) ±×¸®°í termÀÌ´Ù. »öÀÎÀº ¿¬¼ÓµÈ ¹®¼­ÀÇ Á¤º¸¸¦ °¡Áö°í ÀÖ´Ù.
  • ¹®¼­´Â Çʵå·Î ±¸¼ºµÈ´Ù.
  • Çʵå´Â À̸§À» °¡Áö°í ÀÖ´Ù.
  • termÀº ¹®ÀÚ¿­ÀÌ´Ù.
ÇϳªÀÇ ¹®ÀÚ¿­Àº µÎ°³ ÀÌ»óÀÇ ´Ù¸¥ Çʵ忡 À§Ä¡ÇÒ ¼ö ÀÖ´Ù. À¥ ¹®¼­¶ó¸é º¸Åë <Title>°ú <Body> Çʵ带 °¡Áú °ÍÀÌ´Ù. ÀÌ À¥ ¹®¼­°¡ ·ç½ÅÀ» ÁÖÁ¦·Î ÇÑ´Ù¸é, ·ç½ÅÀº Title°ú Body¿¡ ¸ðµÎ Á¸ÀçÇÒ ¼ö ÀÖ´Ù.

±×·¯¹Ç·Î termÀº ÅÒÀÇ À̸§°ú ÅÒÀÇ Çʵå À̸§ÀÇ ½ÖÀ¸·Î ±¸¼ºµÈ´Ù. À§ÀÇ ¿¹»ì¸é {·ç½Å:title}, {·ç½Å:body}·Î ±¸¼ºµÉ °ÍÀÌ´Ù.

1.2 Inverted Indexing

·ç½ÅÀÇ »öÀÎÀº term ±â¹ÝÀ¸·Î, ´õ¿í È¿°úÀûÀÎ °Ë»öÀ» À§Çؼ­ ¹èÄ¡µÇ¾îÀÖ´Ù. ·ç½ÅÀÇ »öÀÎÀº Inverted Index·Î ¾Ë·ÁÁø »öÀÎ ¹æ½Ä¿¡ µû¶ó¼­ ÀúÀåµÇ¾î ÀÖ´Ù. ÀÌ »öÀÎÀº TermÀÇ ¸ñ·ÏÀ¸·Î Ç¥ÇöµÇ¸ç, °¢ TermÀº TermÀÌ ¹ß°ßµÈ ¹®¼­¿¡ ´ëÇÑ Á¤º¸¸¦ °¡Áö°í ÀÖ´Ù.

inverted¶ó°í ÇÏ´Â ÀÌÀ¯¿¡ ´ëÇØ¼­ ¾Ë¾Æº¸ÀÚ.

¹®¼­¸¦ »öÀÎÇÒ ¶§, °¡Àå ¹®Àú ¹®¼­¸¦ term ´ÜÀ§·Î ºÐÇØÇÑ´Ù. ±×·¯¹Ç·Î {¹®¼­:Term}ÀÇ ¸ñ·ÏÀÌ ¸¸µé¾îÁú °ÍÀÌ´Ù. À̰ÍÀ» ´Ù½Ã {Term:{¹®¼­¸ñ·Ï}}À¸·Î¸¸µç´Ù. ÀÌ·¸°Ô °ü°è°¡ ¿ªÀüµÇ¹Ç·Î Inverted »öÀÎÀ̶ó°í ÇÑ´Ù.


1.3 Çʵå

·ç½ÅÀº ¹®¼­¸¦ term´ÜÀ§·Î tokenizingÇϴµ¥ À̶§ termÀÇ Çʵå Á¤º¸¸¦ ÇÔ²² »öÀÎÇÑ´Ù. Çʵå´Â termÀÌ ¹®¼­ÀÇ ¾î´À ¿µ¿ª¿¡¼­ ¹ß»ýÇß´ÂÁö¿¡ ´ëÇÑ Á¤º¸¸¦ °¡Áö°í ÀÖ´Ù.

1.4 ¼¼±×¸ÕÆ® (Segments)

·ç½Å »öÀÎÀº ¼¼±×¸ÕÆ®¶ó°í ºÒ¸®´Â ´ÙÁßÀÇ ¼­ºê À妽º·Î ±¸¼ºµÈ´Ù. °¢°¢ÀÇ ¼¼±×¸ÕÆ®´Â ¿ÏÀüÈ÷ µ¶¸³µÈ »öÀÎÀ» Æ÷ÇÔÇÑ´Ù. ÀÌ·¸°Ô ¼¼±×¸ÕÆ®·Î ³ª´©´Â ÀÌÀ¯´Â ´ÙÀ½°ú °°´Ù.
  1. »öÀÎÁֱ⿡ µû¶ó¼­ »õ·Î Ãß°¡µÇ´Â ¹®¼­´Â »õ·Î¿î »õ±×¸ÕÆ®¿¡ ÀúÀåÇÑ´Ù.
  2. ³ªÁß¿¡ ÀÌµé ¼¼±×¸ÕÆ®¸¦ ÇÕÇØ¼­ »õ·Î¿î »öÀÎÀ» ¸¸µé ¼ö ÀÖ´Ù.
°Ë»öÀº ¿©·¯ °³ÀÇ ¼¼±×¸ÕÆ®µé¿¡ ´ëÇØ¼­ ÀÌ·ç¾îÁö°í À̸¦ ÃëÇÕÇÒ ¼ö ÀÖ´Ù.

1.5 ¹®¼­ ¹øÈ£ (Document Numbers)

·ç½ÅÀº ³»ºÎÀûÀ¸·Î ¹®¼­¸¦ °¡¸®Å°´Â interger ŸÀÔÀÇ ¹®¼­ ¹øÈ£¸¦ À¯ÁöÇϰí ÀÖ´Ù. óÀ½ Ãß°¡µÈ ¹®¼­´Â 0¹øÀ» °¡Áö´Âµ¥, »öÀνà ¹®¼­ À̸§ÀÌ ¾Æ´Ñ ¹®¼­¹øÈ£°¡ ÀúÀåÇÑ´Ù. ÀÌ·¸°Ô ÇÏ¸é »öÀÎÀ» À§ÇÑ ÀúÀå°ø°£À» Àý¾àÇÒ ¼ö ÀÖ´Ù.
  • ¹®¼­ ¹øÈ£´Â °¢ ¼¼±×¸ÕÆ®¿¡¼­ À¯ÀÏÇÏ´Ù.
  • ¹®¼­°¡ »èÁ¦µÇµµ, ¹®¼­ ¹øÈ£´Â ±×´ë·Î ³²´Â´Ù. ÀÏÁ¾ÀÇ ºó°ø°£ÀÌ »ý±â´Â ¼ÀÀε¥, ÀÌ·± °ø°£Àº ¼º´É¿¡ ¿µÇâÀ» ¹ÌÄ£´Ù. À̵éÀº ¹®¼­°¡ mergeµÉ¶§, ¹®¼­¸¦ Àç¹èÄ¡Çϸ鼭 »èÁ¦µµ´Ï´Ù.

1.6 Overview

°¢°¢ÀÇ ¼¼±×¸ÇÆ® »öÀÎÀº ¾Æ·¡ÀÇ ¿ä¼Ò¸¦ Æ÷ÇÔÇÑ´Ù.
  • Çʵå À̸§ : »öÀÎÀº ÇÑ °³ ÀÌ»óÀÇ Çʵå À̸§ ¼ÂÀ» °¡Áö°í ÀÖ´Ù.
  • Çʵ尪 :
  • ´Ü¾î »çÀü : ¸ðµç ¹®¼­ÀÇ »öÀÎ Çʵ忡 Æ÷ÇÔµÈ ´Ü¾î (Term)À» °¡Áö°í ÀÖ´Ù. °¢ TermÀº TermÀÌ ¹ß°ßµÈ ¹®¼­ÀÇ ¸ñ·ÏÀ» °¡Áö¸ç, ¹®¼­¿¡¼­ ¾õ¸¶³ª ÀÚÁÖ ¹ß»ýÇÏ´ÂÁö ±×¸®°í ¾î¶² À§Ä¡¿¡¼­ ¹ß°ßµÆ´ÂÁö¿¡ ´ëÇÑ Á¤º¸µµ °¡Áö°í ÀÖ´Ù.
  • Term Frequency data : °¢ ´Ü¾î°¡ ¸ðµç ¹®¼­¿¡¼­ ¾ó¸¶³ª ¹ß°ßµÆ´ÂÁö¿¡ ´ëÇÑ Á¤º¸¸¦ °¡Áö°í ÀÖ´Ù.
  • Normalization Factors :
  • Term Vectors : ¿©±â¿¡´Â ´Ü¾î ¹®ÀÚ¿­°ú ´Ü¾îÀÇ ºóµµÁ¤º¸°¡ ÀÖ´Ù.
  • Deleted documents : ¹®¼­°¡ »èÁ¦µÇ¸é, ¿©±â¿¡ Ç¥½Ã¸¦ ÇØ¼­ ¹®¼­°¡ »èÁ¦µÇ¾úÀ½À» ¾Ë·ÁÁØ´Ù.

1.7 ÆÄÀÏ ³×À̹Ö


1.8 ÆÄÀÏ È®ÀåÀÚ ¿ä¾à

segments_File segments.gen, segments_N ¼¼±×¸ÕÆ® Á¤º¸¸¦ °¡Áö°í ÀÖ´Ù.
Lock File write.lock °°Àº ÆÄÀÏ¿¡ ´ÙÁßÀÇ IndexerWriterÀÇ Á¢±ÙÀ» ¹æÁöÇϱâ À§ÇÑ Àá±Ý ÀåÄ¡
Compound File .cfs
Fields .fnm Çʵ忡 ´ëÇÑ Á¤º¸°¡ ÀúÀåµÇ¾î ÀÖ´Ù.
Field Index .fdx ÇÊµå µ¥ÀÌÅÍÀÇ Æ÷ÀÎÅÍ
Term Infos .tis ´Ü¾î»çÀü
Term Info Index .tii ´Ü¾î»öÀÎ
Frequencies .frq ´Ü¾î¸¦ ¹ß°ßÇÑ ¹®¼­ÀÇ ¸ñ·Ï
Positions .prx ´Ü¾î°¡ ¹ß°ßµÈ À§Ä¡
Norms .nrm ¹®¼­¿Í ´Ü¾îÀÇ boost
Term Vector Index .tvx Stores offset into the document data file
Term Vector Documents .tvd Contains information about each document that has term vectors
Term Vector Fields .tvf The field level info about term vectors
Deleted Documents .del »èÁ¦ÇÑ ¹®¼­ÀÇ Á¤º¸

1.9 ±âº» µ¥ÀÌÅÍ Çü

1.9.1 Byte

1.9.2 UInt32

1.9.3 Uint64

1.9.4 VInt

1.9.5 Chars

1.9.6 String

1.9.7 Ciompound Types

1.10 Compound Types

EmailÀ» ±âÀÔÇϸé, ´ñ±ÛÀÌ ¸ÞÀÏ·Î Àü´ÞµË´Ï´Ù.