°Ë»ö¿£Áø : Vector Space Model
ÃÑ ÆäÀÌÁö ¼ö : 3121

Àüü ÇÔ¼ö/¿ë¾î»çÀü
ÇöÀçÀ§Ä¡ : JCvs>Search>Document>Vector_Space_Model


term vector modelÀ̶ó°íµµ ºÒ¸®¿ì´Â Vector space modelÀº Á¤º¸ÇÊÅ͸µ, ¹®¼­³»¿¡¼­ÀÇ Á¤º¸°Ë»ö, »öÀΰú À¯»çµµ¸¦ °è»êÇϱâ À§ÇÑ ¼öÇи𵨷Î, ´ÙÂ÷¿ø ¼±Çü°ø°£¿¡¼­ÀÇ Vector Á¤º¸¸¦ ÀÌ¿ëÇØ¼­ ÀÚ¿¬¾î¸¦ Æ÷ÇÔÇÑ ¹®¼­ÀÇ Á߿䵵¸¦ ºÐ¼®Çϱâ À§ÇÑ ¹æ¹ýÀ» Á¦½ÃÇÑ´Ù. ÀÌ ¸ðµ¨Àº SMART Information Retrieval System¿¡¼­ °¡Àå ¸ÕÀú ¾ð±ÞµÇ¾ú´Ù.

¹®¼­´Â »öÀδܾîÀÇ vector·Î ³ªÅ¸³¾ ¼ö ÀÖÀ» °ÍÀÌ´Ù. ¹®¼­ÀÇ À¯»çµµ´Â Vector¿¡ À§Ä¡ÇÑ ´Ü¾îµé°£ÀÇ °Å¸®·Î °è»êÇØ³¾ ¼ö ÀÖÀ» °ÍÀÌ´Ù ¶ó´Â°Ô ÀÌ ¸ðµ¨ÀÇ ´ëÀüÁ¦´Ù. vector¿¡ À§Ä¡ÇÑ Äõ¸®¿¡ ´ëÇÑ ¹®¼­ÀÇ À¯»çµµ´Â ´ÙÀ½°ú °°Àº °£´ÜÇÑ »ï°¢ °ø½ÄÀ¸·Î ³ªÅ¸³¾ ¼ö ÀÖ´Ù.

vector_space_model1.png

TF - IDF ¸ðµ¨

Vector Space ModelÀ» »ç¿ëÇϱâ À§Çؼ­´Â ¹®¼­ÀÇ Vector °ø°£¿¡ ÀÖ´Â TermÀÇ °¡ÁßÄ¡(weights) - Document Term Weight -¸¦ °¡Áö°í ÀÖ¾î¾ß ÇÑ´Ù. À̸¦ À§Çؼ­ term frequency - inverse document frequency ¸ðµ¨ÀÌ »ç¿ëµÇ°í ÀÖ´Ù.
  • TF : ¹®¼­ Vector¿¡ Á¸ÀçÇÏ´Â TermÀÇ °¹¼ö
  • IDF : TermÀ» Vector¿¡ Æ÷ÇÔÇϰí ÀÖ´Â ¸ðµç ¹®¼­µé
  • Weight = TF * IDF

¹®¼­ d°¡ ÀÖ´Ù¸é, Vector d´Â

vector_space_model2.png

¿¡¼­

vector_space_model7.png

IDF¿¡¼­ |D|´Â ¹®¼­ÀÇ ÃѰ¹¼öÀ̰í vector_space_model5.png ´Â TermÀ» Æ÷ÇÔÇÑ ¹®¼­ÀÇ °¹¼ö´Ù.

¿¹¸¦ µéÀÚ¸é ¸®´ª½º(:12)¶ó´Â Äõ¸®¾î°¡ ÁÖ¾îÁ³À» ¶§ À¯»çÇÑ ¹®¼­´Â ¸®´ª½º¸¦ ¸¹ÀÌ Æ÷ÇÔÇÑ ¹®¼­ÀÏ °Å¶ó°í ¿¹»óÇÒ ¼ö ÀÖ´Ù. À̰ÍÀÌ TF´Ù.

ÀϹÝÀûÀÎ ´Ü¾î´Â ¿©·¯¹®¼­¿¡ °ÉÃļ­ ³ª¿Ã °ÍÀ̰í, ÀÌ·¯ÇÑ ´Ü¾î¸¦ Æ÷ÇÔÇÑ ¹®¼­´Â ³·Àº À¯»ç¼ºÀ» °¡Áú °ÍÀ̶ó°í ¿¹»óÇÒ ¼ö ÀÖ´Ù. ¹Ý¸é Àü¹®ÀûÀÎ ´Ü¾î´Â ¼Ò¼öÀÇ ¹®¼­¿¡¼­ ¹ß°ßµÉ °ÍÀÌ¸ç ´õ ³ôÀº À¯»çµµ Á¡¼ö¸¦ ÁÙ ¼ö ÀÖÀ» °ÍÀÌ´Ù. À̰ÍÀ» ¼öġȭÇÑ°Ô IDF´Ù. ¿¹¸¦ µé¾î¼­ ¸®´ª½º, À¯Àú·Î ¹®¼­¸¦ ã´Â´Ù°í Çϸé, ¸®´ª½º´Â Àü¹®¿ë¾îÀ̹ǷΠ´õ ÀûÀº ¹®¼­¿¡¼­ ¹ß°ß µÉ°ÍÀÌ´Ù. ÀϹÝÀûÀÎ ´Ü¾îÀÎ À¯Àú´Â ¸¹Àº ¹®¼­¿¡¼­ ¹ß°ßµÉ °ÍÀÌ´Ù. ±×·¯¹Ç·Î ¸®´ª½º¸¦ Æ÷ÇÔÇÑ ¹®¼­´Â À¯Àú¸¦ Æ÷ÇÔÇÑ ¹®¼­º¸´Ù ´õ ³ôÀº À¯»çµµ¸¦ ºÎ¿©ÇÒ ¼ö ÀÖÀ» °ÍÀÌ´Ù. ¸Å¿ì Á÷°üÀûÀÎ »ý°¢ÀÌ´Ù.

¿¹Á¦ : ¹®¼­ÀÇ À¯»çµµ

ÀÌ·¸°Ô °¢ ¹®¼­¿¡ ´ëÇØ¼­ Term Vector¸¦ ¸¸µé¾ú´Ù°í °¡Á¤À» ÇØº¸ÀÚ.

ÀÌÁ¦ ÁÖ¾îÁø Term¿¡ ´ëÇØ¼­ µÎ ¹®¼­°£ÀÇ °Å¸®¸¦ ±¸ÇÒ ¼ö ÀְԵȴÙ. ÀÌ °Å¸®°¡ °¡±î¿ì¸é ´õ À¯»çÇѹ®¼­¶ó°í ÇÒ ¼ö ÀÖ´Ù.

´«À¸·Î ÀÐÀº ¹®¼­°¡ "¾ß±¸±â»ç"¿¡ °ü·ÃµÈ ¹®¼­ÀÎÁö "¿¬¿¹±â»ç"¿¡ °ü·ÃµÈ ¹®¼­ÀÎÁö ºÐ¸®Çس¾ ¼ö ÀÖ´Â Àΰ£°ú´Â ´Þ¸® ÄÄÇ»ÅÍ´Â À̸¦ ±¸ºÐÇÒ ¼ö ¾ø´Ù. ±×·¸±â ¶§¹®¿¡ ÀÌ·¯ÇÑ Vector ¸ðµ¨À» ¸¸µé¾î¼­ ÄÄÇ»ÅͰ¡ ¹®¼­ À¯»çµµ¸¦ °è»êÇÒ ¼ö ÀÖ°Ô²û Çϰí ÀÖ´Ù.

¿©±â A, B, C ¼¼°³ÀÇ ¹®¼­°¡ ÀÖ´Ù°í °¡Á¤ÇØ º¸ÀÚ. ±×¸®°í ¹éÅÍ¿¡ À§Ä¡ÇÏ´Â ¿ø¼ÒÀÇ °ªÀ» ´ÙÀ½°ú °°ÀÌ Á¤ÀÇ ÇÏÀÚ.
  1. ¹øÂ° ¿ø¼Ò´Â "»ó»óÇ÷¯½º"¶ó´Â ´Ü¾îÀÇ ºóµµ¼ö
  2. ¹øÂ° ¿ø¼Ò´Â "±èÁ¦µ¿"
  3. ¹øÂ° ¿ø¼Ò´Â "¹«ÇѵµÀü" ÀÌ´Ù.

(A,B)´Â »ó»óÇ÷¯½º¿¡ °üÇÑ ¹®¼­À̰í, (C)´Â ¾ß±¸¿¡ °üÇÑ ¹®¼­´Ù. A¿¡¼­ ù¹øÂ° ¿ø¼ÒÀÎ "»ó»óÇ÷¯½º"ÀÇ ¹ß»ýºóµµ´Â 10, "±èÁ¦µ¿"ÀÇ ¹ß»ý ºóµµ¼ö´Â 5ÀÌ´Ù. B´Â 8,9À̰í, C´Â 0À̶ó°í ÇÏ¸é ´ÙÀ½°ú °°ÀÌ °¢ ¹®¼­ÀÇ À¯»çµµ¸¦ °è»êÇØ³¾ ¼ö ÀÖ´Ù.
  1. d(A,B) = 2^2 + 4^2 = 20
  2. d(A,C) = 10^2 + 5^2 = 125
  3. d(B,C) = 8^2 + 9^2 = 145
ºñ½ÁÇÑ ÁÖÁ¦ÀÇ ¹®¼­µé³¢¸® ´ëü·Î °¡±î¿î °Å¸®¸¦ °¡Áö°í, ´Ù¸¥ ÁÖÁ¦¸¦ °¡Áö´Â ¹®¼­µéÀÌ °Å¸®°¡ ¸ÖÀÌÁö´Â °ÍÀ» È®ÀÎÇÒ ¼ö ÀÖÀ» °ÍÀÌ´Ù.

¿¹Á¦ : Query ¿¡ ´ëÇÑ ¹®¼­ÀÇ À¯»çµµ

"¸®´ª½º"¿Í "°³¹ßÀÚ" ¶ó´Â ´Ü¾î¸¦ Æ÷ÇÔÇÑ ¹®¼­µéÀÌ ÀÖ´Ù°í °¡Á¤ÇØ º¸ÀÚ. »öÀÎÆÄÀÏÀÌ ¸¸µé¾îÁ® ÀÖ´Ù¸é, ÀÌµé ¹®¼­¸¦ Æ÷ÇÔÇÑ ¹®¼­¸¦ ã´Â °ÍÀº ±×¸® ¾î·ÆÁö ¾ÊÀ» °ÍÀÌ´Ù. ¹®Á¦´Â "¸®´ª½º"¿Í "°³¹ßÀÚ"¸¦ Æ÷ÇÔÇÑ ¼ö¸¹Àº ¹®¼­Áß¿¡¼­ ´õ ¸¹Àº ¸¹Àº °ü·Ã¼ºÀ» °¡Áø ¹®¼­¸¦ ¾î¶»°Ô ã¾Æ³»´À³Ä¿¡ ÀÖ´Ù.

vector_graph.png

½±°Ô »ý°¢Çؼ­ ¹®¼­ d ÀÇ term vector°¡ ¸¸µé¾îÁ® ÀÖ´Ù¸é, °¢ term»çÀÌÀÇ °Å¸®¸¦ ±¸ÇÑ´ÙÀ½¿¡ ¸ðµÎ ´õÇØÁÖ¸é µÉ °ÍÀÌ´Ù.
  1. ¸®´ª½º´Â ¸Å¿ì ÁÁÀº ¿î¿µÃ¼Á¦ÀÌ´Ù. ¾î¼°í Àú¼°í.. ÇÑÂüÈÄ¿¡ °³¹ßÀÚÀÔÀå¿¡¼­ Çѹø ½áº¼ÇÑ ÇÏ´Ù.
  2. ¸®´ª½º´Â °³¹ßÀÚ¿¡°Ô ¸Å¿ì ÁÁÀº ¿î¿µÃ¼Á¦ÀÌ´Ù. ¿Ö³ÄÇÏ¸é ¾î¼°í Àú¼°í
°£´ÜÇÑ °Å¸®°è»êÀ» ÀÌ¿ëÇØ¼­ 2¹ø ¹®¼­°¡ ÁÖ¾îÁø TermµéÀ» Æ÷ÇÔÇÑ ´õ À¯»çÇÑ ¹®¼­¶ó´Â °É ã¾Æ³¾ ¼ö ÀÖ´Ù.

ÀåÁ¡

  1. µ¿À½ÀÌÀǾî¿Í ´ÙÀǾî 󸮰¡ °¡´ÉÇÏ´Ù.
  2. °á°úÀÇ Á¤È®µµ - relevance scoring - ¸¦ ±¸ÇÒ ¼ö ÀÖ´Ù.
  3. °á°ú Çǵå¹éÀÌ ¿ëÀÌÇÏ´Ù.

´ÜÁ¡

Vector Space ModelÀº ´ÙÀ½°ú °°Àº ´ÜÁ¡À» °¡Áø´Ù.
  1. TermÀÇ °¹¼ö°¡ ¸¹¾ÆÁú¼ö·Ï ÇØ´ç ¹®¼­´Â ´õ ³·Àº similarity °ªÀ» °¡Áö°Ô µÈ´Ù. ÀÌ´Â Å« ¹®¼­ÀÏ Àú Æò°¡µÉ ¼ö ÀÖÀ½À» ÀǹÌÇÑ´Ù.
  2. ã°íÀÚ Çϴ Ű¿öµå°¡ Á¤È®È÷ ¸ÅÄ¡µÇ¾î¾ß ÇÑ´Ù. - ÀÌ ¹®Á¦´Â ÁÁÀº ÇüÅÂ¼Ò ºÐ¼®±â¸¦ °¡ÁüÀ¸·Î½á ¾î´ÀÁ¤µµ ÇØ°áÇÒ ¼ö ÀÖ´Ù. -
  3. ¿ö³«¿¡ ±¤¹üÀ§ÇÑ ÁÖÁ¦¸¦ ´Ù·ç´Â ¹®¼­°¡ ¸¹°í ¹®¼­¿¡ Æ÷ÇÔµÈ TermÀÇ ¾çµµ ¸¹±â ¶§¹®¿¡, ºñ½ÁÇÑ ÁÖÁ¦¸¦ ´Ù·ç´Â ¹®¼­¶ó°í ÇÏ´õ¶óµµ ÀüÇô´Ù¸¥ TermÀ¸·Î ±¸¼ºµÇ´Â °æ¿ì°¡ ¹ß»ýÇÑ´Ù.
  4. ´À¸®´Ù.

3¹øÀÇ °æ¿ì°¡ ƯÈ÷ ¹®Á¦°¡ µÉ ¼ö Àִµ¥, ¿¹¸¦ µé¾î¼­ ¼³¸íÇØº¸µµ·Ï ÇϰڴÙ.

ÃÖÈ«¸¸Àº k-1¿¡¼­ Ȱ¾àÇÏ´Â °ÝÅõ¼±¼öÀ̸鼭 ƯÀ¯ÀÇ ¼î¸Ç½±À¸·Î ÀÌ·± Àú·± ÇÁ·Î¿¡ °Ô½ºÆ® ȤÀº °íÁ¤ÃâÇöÀ» Çϰí ÀÖ´Ù. ±×·¯¹Ç·Î ¿¬¿¹°è ¹®¼­Áß ¸î°³¿¡¼­´Â 'ÃÖÈ«¸¸ÀÌ ¾î´ÀÁ¤µµÀÇ ºóµµ¼ö¸¦ °¡Áö°Ô µÉ °ÍÀÌ´Ù. k-1 À¸·Î ´«À» µ¹·Á¼­ »ý°¢Çغ¸¸é, ÃÖÈ«¸¸ÀÌ ÃâÀüÇÑ °æ±â¿Í °ü·ÃµÈ ¹®¼­ÀÇ °æ¿ì ºóµµ¼ö°¡ ³ôÁö¸¸, ±×·¸Áö ¾ÊÀº °æ±â¿Í °ü·ÃµÈ ¹®¼­ÀÎ °æ¿ì ³·Àº ºóµµ¼ö¸¦ °¡Áö°Ô µÉ °ÍÀÌ´Ù.

À̰ÍÀ» °¡Á¤Çؼ­ ÃÖÈ«¸¸ÀÇ ºóµµ¼ö¸¦ yÃàÀ¸·Î k-1ÀÇ ºóµµ¼ö¸¦ xÃàÀ¸·ÎÇÏ°í ¿¬¿¹¹æ¼Û°ú k-1 µÎÁ¾·ùÀÇ ¹®¼­¸¦ ±×·¡ÇÁ·Î ±×·Áº¸¸é ¾Æ·¡¿Í °°ÀÌ °¢°¢ÀÇ ÁÖÁ¦°¡yÃàÀ¸·Î ±æ°Ô ´Ã¾î¼± ÇüŸ¦ °¡Áö°Ô µÈ´Ù.
o = ¿¬¿¹°è ¹®¼­ (k-1¿¡ ´ëÇÑ ´Ü¾î°¡ ÀüÇô ³ªÅ¸³ªÁö ¾ÊÀ½) 
x = k-1 °ü·Ã ¹®¼­µé  
ÃÖÈ«¸¸ 
|o       x 
|o      x 
|o       x 
|o      x 
|o       x 
|o      x 
+-------------->  (K-1) 
 
¿©±â¿¡¼­ ´ÙÀ½ÀÇ °á·ÐÀ» ¾òÀ» ¼ö ÀÖ´Ù.
  1. °°Àº ÁÖÁ¦¶ó°í ÇÏ´õ¶óµµ yÃàÀÇ ÀÌÂʳ¡°ú ÀúÂʳ¡ÀÇ ¹®¼­´Â °Å¸®°¡ ¸Ö¾îÁø´Ù.
  2. ´Ù¸¥ ÁÖÁ¦¶ó°í ÇÏ´õ¶óµµ yÃà»ó¿¡ ÀÖ´Â ¹®¼­³¢¸®´Â °Å¸®°¡ °¡±õ´Ù.
  3. °á·Ð : °Ë»öÀÌ Á¦´ë·Î ¾ÈµÈ´Ù ÁÖÁ¦°£ÀÇ Â÷À̸¦ ¹Ý¿µÇÏÁö ¸øÇϱ⠶§¹®ÀÌ´Ù.

Markov random walk

´õ¿í ¹®Á¦°¡ µÇ´Â °ÍÀº ÁÖÁ¦ÀÇ ¼º°ÝÀÌ ºñ½ÁÇØ¼­ ¿øÇÏ´Â ¹®¼­¸¦ °¡Á®¿À±â°¡ ¾Ö¸Å¸ðÈ£ÇØÁö´Â °æ¿ì´Ù. ¿¹¸¦ µéÀÚ¸é ¸®´ª½º°ü·Ã ¹®¼­¿Í À©µµ¿ìÁî°ü·Ã ¹®¼­ÂëÀÌ µÇ°Ú´Ù. ´ÙÀ½°ú °°Àº ±×·¡ÇÁ°¡ ¸¸µé¾îÁø °æ¿ì¸¦ »ý°¢ÇØ º¸ÀÚ.
(´Ü¾î 2) 
^ 
|             o o o 
|          o          o o 
|       o *     x          o       x 
|      o           x x            x  
|                        x   x  x  
|                            
| 
-------------------------------------> (´Ü¾î 1) 
 
o = ÁÖÁ¦ 1¿¡ ¼ÓÇÏ´Â ¹®¼­µé 
x = ÁÖÁ¦ 2¿¡ ¼ÓÇÏ´Â ¹®¼­µé 
* = Äõ¸® 
 
»ç¿ëÀÚ°¡ *¿Í °°Àº Äõ¸®¸¦ ÁáÀ»¶§, ¿Ã¹Ù¸¥ °á°ú´Â ÁÖÁ¦ 1¿¡ ¼ÓÇѹ®¼­µé Áß Äõ¸®¿Í °¡±îÀÌ¿¡ ÀÖ´Â ¹®¼­°¡ »óÀ§¿¡ ¿Ã¶ó¿À´Â °æ¿ì´Ù. ±×·±µ¥ ±×¸²À» º¸¸é ¾Ë°ÚÁö¸¸ ÁÖÁ¦ 2¿¡ ¼ÓÇÏ´Â ¹®¼­µéÁß ¸î°³°¡ ÁÖÁ¦ 1ÀÇ ¹®¼­µéº¸´Ù Äõ¸®¿¡ ´õ °¡±îÀÌ Àֱ⠶§¹®¿¡, À̵éÀÌ »óÀ§¿¡ ¿Ã¶ó¿À´Â ¹®Á¦°¡ ¹ß»ýÇÑ´Ù. ÀÌ °æ¿ì ÁÖÁ¦ 2¿¡ ¼ÓÇÏ´Â ¹®¼­¸¦ ¾î¶»°Ô Á¦°ÅÇÒ °ÍÀΰ¡°¡ Áß¿äÇÑ À̽´°¡ µÉ °ÍÀÌ´Ù.

¹®Á¦ÀÇ ÇØ°áÀ» À§Çؼ­ Äõ¸® ±Ùó ¿µ¿ª¸¸À» Àß¶ó³õ°í º¸µµ·Ï ÇÏÀÚ.
|                o <-A 
|       D->  o 
|     C-> o  *   x <-B   
|          o  
|                           
 
Á÷¼±°Å¸®»óÀ¸·Î¸¸ º¸ÀÚ¸é A¿Í Äõ¸®ÀÇ Á÷¼± °Å¸®°¡ B¿Í Äõ¸®ÀÇ Á÷¼±°Å¸®º¸´Ù ¸Ö´Ù. - ±âÁ¸ vector space ¸ðµ¨À» Àû¿ëÇÏ°Ô µÇ¸é, °Å¸®°¡ °¡±î¿î B°¡ Aº¸´Ù ³ôÀº À¯»çµµ¸¦ °¡Áú °ÍÀÌ´Ù. - ±×·¸Áö¸¸ Äõ¸®¿Í C, Äõ¸®¿Í D, C¿Í D, D¿Í A °¢°¢ÀÇ °Å¸®´Â BÀÇ °Å¸®º¸´Ù °¡±õ´Ù. ¸íÈ®ÇÏÁö´Â ¾ÊÁö¸¸ ¹®Á¦°¡ Ç®¸± ¼öµµ ÀÖ´Ù´Â »ý°¢ÀÌ µé °ÍÀÌ´Ù. °¢°¢ÀÇ Æ÷ÀÎÆ®·Î À̵¿ÇÏ°Ô µÉÈ®·üÀ» °öÇÏ´Â °ÍÀÌ´Ù.

¿©±â¿¡¼­ È®·üÀº °Å¸®¿¡ µû¶ó ´Þ¶óÁø´Ù. °Å¸®°¡ °¡±î¿ì¸é ¿òÁ÷ÀÏ È®·üÀÌ ³ô¾ÆÁö°í, ¸Ö¸é ±×¸¸Å­ È®·üÀÌ ³·¾ÆÁø´Ù. ÀÌ·¯ÇÑ ¹®Á¦¸¦ ó¸®Çϱâ À§Çؼ­ ³ª¿Â ¾ÆÀ̵ð¾î°¡ Markov random walk·Î, Äõ¸®ÀÇ À§Ä¡¿¡¼­ ½ÃÀÛÀ» ÇØ¼­ A ȤÀº B·Î µµÂøÇÒ ¶§±îÁö ¸Å Åϸ¶´Ù ·£´ýÇÏ°Ô ÀÓÀÇÀÇ Æ÷ÀÎÆ®·Î À̵¿À» ÇÏ´Â ¹æ½ÄÀÌ´Ù.

¿¹¸¦µé¾î query¿¡¼­ A·Î °¥¼ö ÀÖ´Â À¯¸ÁÇÑ °æ·Î¿Í ÀÌ¿¡ µû¸¥ È®·ü°ªÀº ´ÙÀ½°ú °°À» °ÍÀÌ´Ù.
  • Äõ¸® -> C -> D -> A : È®·ü°ªÀº P(Äõ¸®->C) * P(C->D) * P(D->A)
  • Äõ¸® -> D -> A : È®·ü°ªÀº P(Äõ¸®->D) * P(D->A)
  • ±âŸ : Äõ¸® -> C -> Äõ¸® -> D -> A µîµîµî
ÇØ¼­ Äõ¸®¿¡¼­ A±îÁö µµ´ÞÇÒ È®·üÀº À§ÀÇ pathµéÀÇ È®·üÀ» ¸ðµÎ ´õÇÑ°Ô µÉ °ÍÀÌ´Ù.

¹Ý¸é Äõ¸®¿¡¼­ ½ÃÀÛÇØ¼­ B·Î °¥ ¼ö ÀÖ´Â À¯¸ÁÇÑ °æ·Î´Â Äõ¸®->B Çϳª »ÓÀÌ´Ù. Äõ¸®¿¡¼­ A ȤÀº B·Î À̵¿ÇÏ´Â È®·ü°ªÀº °¢ Æ÷ÀÎÆ®·Î À̵¿ÇÒ ¼ö ÀÖ´Â È®·üÀÇ °öÀÌ´Ù. À̴ ƯÁ¤Æ÷ÀÎÆ®·ÎÀÇ È®·üÀÌ ³·Àº°Ô ÀÖ´Ù¸é, ÀüüȮ·üÀ» Å©°Ô ³·Ãß°Ô µÈ´Ù. À§ÀÇ ±×·¡ÇÁ¿¡¼­ C, D, A¿¡¼­ B·ÎÀÇ °Å¸®´Â ³Ê¹« ¸Ö±â ¶§¹®¿¡ È®·üÀÚü°¡ ³·¾ÆÁö°Ô µÇ°í, °á±¹ ´Ù¸¥ °æ·Î¸¦ ÅëÇÑ È®·üÀº Äõ¸®->Bº¸´Ù ³·¾ÆÁú ¼ö ¹Û¿¡ ¾ø°Ô µÈ´Ù.

Áï µÎ ¹®¼­°£ÀÇ À¯»ç¼ºÀ» ÆÇ´ÜÇÒ¶§ ¹®¼­°£ÀÇ Á÷¼±°Å¸®¸¦ »ý°¢ÇÏ´Â ´ë½Å¿¡ ¹®¼­¿¡ µµÂøÇÒ È®·ü·Î º¸´Â °ÍÀÌ´Ù.

Markov Random walk ¿Í PageRank

PageRank´Â ¹®¼­ÀÇ Á߿䵵¸¦ À§Çؼ­ Á¦½ÃÇÑ ±¸±ÛÀÇ ¾Ë°í¸®ÁòÀÌ´Ù. ¿¹¸¦ µé¾î A, B, C, D 4°³ÀÇ À¥¹®¼­°¡ ÀÖ°í, ÀÌÁß B¿Í D°¡ A¸¦ link Çϰí ÀÖÀ» ¶§, AÀÇ Page Rank´Â
Q(A) = Q(B)/N(B) + Q(D)/N(D) 
 
°¡ µÈ´Ù. NÀº ÇØ´ç ÆäÀÌÁö°¡ °¡Áö°í ÀÖ´Â linkÀÇ °¹¼ö¸¦ ÀǹÌÇÑ´Ù. ÀÌ °è»êÀ» ¸ðµç À¥ÆäÀÌÁö¿¡ ´ëÇØ¼­ ¹Ýº¹Çؼ­ ¼öÇàÇÏ¸é µÈ´Ù.

¿©±â¿¡¼­ Markov Random walk ¿Í Page Rank¿ÍÀÇ °ü°è¸¦ ¾Ë¾Æº¸ÀÚ. ÀÏ´Ü Page Rank´Â À¥ÆäÀÌÁö ȤÀº ¸µÅ©¿Í °°Àº °ÍµéÀ» µû·Î VectorÈ­ ÇÏÁö ¾Ê´Â´Ù. ±×·¯¹Ç·Î Markov Random walk¸¦ »ç¿ëÇÒ ¼ö°¡ ¾ø´Ù. ±×·¸´Ù¸é, ¿©·¯°³ÀÇ ¸µÅ©Áß ¾î¶² ¸µÅ©·Î À̵¿ÇÒ È®·üÀÌ °¡Àå Å«°¡¸¦ ¾î¶»°Ô °è»êÇÒ ¼ö ÀÖÀ»±î ?

±¸±ÛÀº random clickÀ̶ó´Â ¾ÆÀ̵ð¾î¸¦ »ý°¢ÇØ ³Â´Ù. ¿¹¸¦ µé¾î A¶ó´Â À¥ÆäÀÌ¿¡ N°³ÀÇ ¸µÅ©°¡ ÀÖ´Ù°í °¡Á¤ ÇßÀ» ¶§, random click¶õ ±× Áß Çϳª¸¦ ¹«ÀÛÀ§·Î clickÇÒ È®·üÀ» ÀǹÌÇÑ´Ù. ÀÌ È®·üÀÇ °è»êÀº ¹«Áö ´Ü¼øÇÏ´Ù 1/N ÇÏ¸é µÈ´Ù. Áï À§ÀÇ °ø½ÄÀº ¾Æ·¡¿Í °°ÀÌ Á»´õ ÀÚ¼¼ÇÏ°Ô ³ªÅ¸³¾ ¼ö ÀÖÀ» °ÍÀÌ´Ù.
Q(A) = Q(B)*(1/N(B)) + Q(C)*0 + Q(D)*(1/N(D)  
 

p2.jpg

Markov chain¿¡ ´ëÇØ¼­

¿ì¸®´Â È®·ü°ú °ü·ÃµÈ °ø½ÄÀ» ÀÌ¿ëÇØ¼­ ·Î¶Ç¿¡ ´ç÷µÉ È®·ü, ±³Åë»ç°í¸¦ ´çÇÒ È®·üµîÀ» ¾Ë ¼ö ÀÖ´Ù. ÁÖ»çÀ§¸¦ ´øÁ³À» ¶§, 1ÀÌ ³ª¿ÃÈ®·üÀÌ 1/6À̶ó´Â °Ç ´©±¸¶óµµ ¾Ë°í ÀÖÀ» °ÍÀÌ´Ù. ÀÌ·¯ÇÑ È®·üµîÀº ´Ù¸¥ Á¶°ÇÀÇ ¿µÇâÀ» ¹ÞÁö ¾Ê´Â´Ù. ¹ãÀÌ°Ç ³·ÀÌ°Ç Àú³áÀÌ°Ç °£¿¡ ÁÖ»çÀ§¿¡¼­ ƯÁ¤ ´«ÀÌ ³ª¿Ã È®·üÀº 1/6ÀÎ °ÍÀÌ´Ù. ¼­¿ï¿¡¼­ ·Î¶Ç¸¦ ±Üµç ºÎ»ê¿¡¼­ ±Üµç °£¿¡ ¿ªÈ÷ È®·üÀº µ¿ÀÏÇÏ´Ù.

±×·¯³ª ½ÇÁ¦ »ýȰ¿¡¼­ ¹ß»ýÇÏ´Â ¸¹Àº »ç°ÇÀÇ È®·üÀº ¿©·¯°¡Áö Á¶°Ç¿¡ Á¾¼ÓµÈ °æ¿ì°¡ ¸¹´Ù. ¿À´ÃÀÇ ºñ°¡ ¿ÀÁö ¾ÊÀ» È®·üÀº ¾îÁ¦ÀÇ ³¯½Ã »óŰ¡ ¾î¶°Çß´ÂÁö¿¡ µû¶ó¼­ ´Þ¶óÁú ¼ö°¡ ÀÖ´Ù. ¾îÁ¦ ÇØ°¡ ¸¸Çß´ÂÁö, ´Þ¹«¸®°¡ »ý°å´ÂÁö ±âŸµîµîÀÇ Á¶°Ç¿¡ µû¶ó¼­ ¿À´Ã ºñ°¡ ¿Ã È®·üÀÌ º¯ÇÑ´Ù. ¶ÇÇÑ ¿À´ÃÀÇ ³¯¾¾ÀÇ »óÅ´ ³»ÀÏ ºñ°¡¿Ã È®·ü¿¡ ¿µÇâÀ» ³¢Ä£´Ù. ÀÌ·¸°Ô ÁÖ¾îÁø Á¶°Ç¿¡ µû¶ó¼­ È®·ü°ªÀÌ ¾î¶»°Ô º¯ÇÏ´ÂÁö¸¦ ºÐ¼®ÇÏ´Â°Ô Marcov chain ¸ðÇüÀ̶ó°í Çϸç, ÁÖ¾îÁø Á¶°ÇÀÇ º¯È­¿¡ µû¶ó º¯ÇÏ´Â È®·ü°ªÀ» õÀÌÈ®·ü(Transition Probability)¶ó°í ÇÑ´Ù.