Nutch µ¥ÀÌŸ´Â µÎ°¡Áö ŸÀÔÀ¸·Î ³ª´¶´Ù.
- Web database: Nutch°¡ ¾Ë°í ÀÖ´Â ¸ðµç »çÀÌÆ®¿¡ ´ëÇÑ Á¤º¸¸¦ Æ÷ÇÔÇϸç, ¿©±â¿¡´Â ÆäÀÌÁöµé »çÀ̸¦ À̾îÁÖ´Â ¸µÅ©Á¤º¸µµ ÆÄÇÔÇÑ´Ù. Web DB¿¡´Â protocol://server/page Çü½ÄÀÇ URL¸ñ·Ï°ú ¸µÅ©Á¤º¸µéÀÌ µé¾î°£´Ù.
- segement ¸ñ·Ï : °¢ ¼¼±×¸ÕÆ®¿¡´Â fetchµÈ ÆäÀÌÁö¿Í »öÀÎÁ¤º¸¸¦ Æ÷ÇÔÇϰí ÀÖ´Ù. °Ë»öÀº segment´ÜÀ§·Î ÀÌ·ç¾îÁø´Ù. À̵é segment´Â ¸¸µé¾îÁø ½Ã°£À» À̸§À¸·Î ¿©·¯°³°¡ »ý¼ºµÉ ¼ö ÀÖ´Ù. ¼¼±×¸ÕÆ®´Â ´ÙÀ½°ú °°Àº Á¤º¸µéÀÇ ÁýÇÕÀÌ´Ù.
- fetchlist : fetchµÈ ÆäÀÌÁöÀÇ À̸§À» °¡Áø ÆÄÀÏÀÌ´Ù. fetchlist´Â web DB¿¡ ÀÇÇØ¼ ¸¸µé¾îÁö¸ç, À¥ÆäÀÌÁöÀÇ ºÐ¼®°ú ·©Å·¾Ë°í¸®ÁòÀ» Àû¿ëÇϱâ À§ÇÑ ±âÃÊÀÚ·á°¡ µÈ´Ù.
- fetcher output : fetchµÈ ÆÄÀÏÀÇ Á¤º¸¸¦ Æ÷ÇÔÇϰí ÀÖ´Â ÆÄÀϵéÀÌ´Ù. Nutch´Â fetcher_content¿Í fetcher_text µÎ°¡Áö ŸÀÔÀÇ fetcher outputÀ» °¡Áø´Ù. fetcher_content´Â À¥ÆäÀÌÁöÀÇ ¿øº»µ¥ÀÌÅ͸¦ ±×´ë·Î °¡Áö°í ÀÖÀ¸¸ç, fetcher_text´Â ÅØ½ºÆ® Çü½ÄÀÇ µ¥ÀÌÅ͸¸À» ÀúÀåÇϰí ÀÖ´Ù. ÀÌ µÎ°³ÀÇ ÆÄÀÏÀº fetch°¡ ³¡³ÈÄ¿¡ fetchµÈ À¥ÆäÀÌÁö¿¡ ´ëÇØ¼ <key, value>·Î ±¸¼ºµÈ index.dataÇüÅ·ΠÀ籸¼ºµÈ´Ù. key´Â ÇöÀç ÆäÀÌÁö°¡ Á¸ÀçÇÏ´Â segment³»¿¡¼ÀÇ ÀϷùøÈ£À̸ç, value´Â ÀϷùøÈ£¿¡ ´ëÀÀµÇ´Â ÆäÀÌÁöÀÇ ¹®¼³»¿ëÀÌ´Ù. ÀÌ Key´Â ¼¼±×¸ÕÆ®³»¿¡¼ À¯ÀÏÇÑ °ªÀ» °¡Áø´Ù.
- »öÀÎ : lucene »öÀÎÀ» Âü°íÇϱ⠹ٶõ´Ù.
fetch output µ¥ÀÌÅÍ´Â Nutch reader¿¡ ÀÇÇØ¼ ÀÐÀ» ¼ö ÀÖ´Â µ¥ÀÌÅÍ Æ÷¸ËÀ¸·Î ÀúÀåÀÌ µÈ´Ù. Nutch´Â net.nutch.fetcher.FetcherContent¿Í net.nutch.fetcher.FetcherText¸¦ ÀÌ¿ëÇØ¼ fetcher_content¿Í fetcher_text·Î ºÎÅÍ µ¥ÀÌÅ͸¦ ÀÐÀ» ¼ö ÀÖ´Ù.