µ¥ÀÌÅÍ ¸¶ÀÌ´× : Àå³²½Ä.È«¼º¿Ï.ÀåÀçÈ£ ÁöÀ½, ´ëû¹Ìµð¾î, 1999
2. ÀÇ»ç°áÁ¤³ª¹«(Decision Tree)
4. µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º(Co-Occurrence Matrix)
5. K-Æò±Õ±ºÁýÈ(K-Means Clustering)
data miningÀÇ °³¿ä¿¡¼
¿ì¸®´Â Áö½Ä¹ß°ß(KDD)Àº µ¥ÀÌÅͷκÎÅÍ À¯¿ëÇÑ Á¤º¸¸¦ ¹ß°ßÇÏ´Â ÇÁ·Î¼¼½º Àü °úÁ¤À̰í,
data miningÀº Áö½Ä¹ß°ß ÇÁ·Î¼¼½º Áß¿¡¼ µ¥ÀÌÅͷκÎÅÍ Á¤º¸¸¦ ÃßÃâÇϱâ À§ÇØ ±â¹ýÀ»
Àû¿ëÇϴ ƯÁ¤´Ü°è¶ó Á¤ÀÇÇß´Ù. ƯÈ÷ data mining ±â¹ýÀ» ¼±Á¤ÇÏ¿© µ¥ÀÌÅÍ¿¡ Àû¿ëÇÏ´Â
°úÁ¤Àº Áö½Ä¹ß°ß ÇÁ·Î¼¼½º Áß¿¡¼µµ °¡Àå Èï¹Ì·Î¿î ´Ü°èÀÓÀÌ ºÐ¸íÇÏ´Ù. Áö±Ý±îÁö
¾Ë·ÁÁø data mining ±â¹ýµéÀº ±× Á¾·ù°¡ »ó´çÈ÷ ´Ù¾çÇÒ »Ó ¾Æ´Ï¶ó Áö±Ýµµ »õ·Î¿î
±â¹ýµéÀÌ ´ëÇаú ¿¬±¸¼Ò¸¦ ÅëÇØ °è¼Ó ¼Ò°³µÇ°í ÀÕ´Ù. ÀÌ Áß¿¡¼µµ ÀÌ·ÐÀûÀÎ °ËÁõÀ»
°ÅÃÄ »óǰÀû °¡Ä¡¸¦ ÀÎÁ¤¹ÞÀº ÀϺΠ±â¹ýµéÀº ¼ÒÇÁÆ®ÀûÀÎ °ËÁõÀ» °ÅÃÄ »óǰÀû °¡Ä¡¸¦
ÀÎÁ¤¹ÞÀº ÀϺΠ±â¹ýµéÀº ¼ÒÇÁÆ®¿þ¾î °ø±Þ¾÷üµé¿¡ ÀÇÇØ »ó¿ëÈµÇ¾î ½ÃÀå¿¡ µîÀåÇϰí
ÀÕ´Ù. ±×·¯³ª data miningÀ» óÀ½ Á¢ÇÏ´Â Ãʺ¸ÀÚ »Ó¸¸ ¾Æ´Ï¶ó ½ÇÁ¦ »ç·Ê¿¡ Àû¿ëÇØº»
°æÇèÀÌ ÀÖ´Â »ç¶÷µé¿¡°Ôµµ ÀڽŵéÀÇ »óȲ¿¡ ÀûÇÕÇÑ data mining ±â¹ýÀ» ¼±ÅÃÇÏ´Â
ÀÛ¾÷Àº ±×¸® ½±Áö ¾Ê´Ù. À̰ÍÀº data mining ÀÛ¾÷ À¯Çü¿¡ °ü°è¾øÀÌ °¡Àå Ź¿ùÇÑ
¼º´ÉÀ» Á¦°øÇϴ ƯÁ¤±â¹ýÀÌ Á¸ÀçÇÏ´Â °Íµµ ¾Æ´Ï°í À¯»ç ±â¹ýÀ̶ó°í ÇÏ´õ¶óµµ ºÐ¼®
´ë»óÀÌ µÇ´Â µ¥ÀÌÅÍÀÇ Æ¯¼ºÀ̳ª µµÃâÇϰíÀÚ ÇÏ´Â Á¤º¸ÀÇ ¼º°Ý¿¡ µû¶ó »óÀÌÇÑ °á°ú¸¦
³ºÀ» ¼ö Àֱ⠶§¹®ÀÌ´Ù.
ÀÌÀå¿¡¼´Â data mining ±â¹ýµéÀÇ Á¾·ù¸¦
»ìÆìº¸°í ±× Áß¿¡¼ °¢ ÀÛ¾÷ À¯Çüº°·Î °¡Àå ¸¹ÀÌ »ç¿ëÇÏ´Â ±â¹ýµéÀ» °£´ÜÇÑ »ç·Ê¸¦
°çµé¿© ¼Ò°³ÇÏ·Á°í ÇÑ´Ù. ±×·¯³ª ȸ±ÍºÐ¼® (regression analysis)À̳ª ÆÇº°ºÐ¼® (discriminant
analysis) µî°ú °°ÀÌ ÀÌ¹Ì ³Î¸® ¾Ë·ÁÁ® ÀÖ´Â ÀüÅëÀûÀÎ Åë°è±â¹ý¿¡ ´ëÇÑ ¼Ò°³´Â Á¦¿Ü½ÃÄ×´Ù.
ÀÌ¿Í ´õºÒ¾î ÀûÀýÇÑ data mining ±â¹ýÀ» ¼±Á¤Çϱâ À§Çؼ´Â ±â¹ýÀÇ ±Ù°£ÀÌ µÇ´Â
ÀÌ·ÐÀ̳ª ¾Ë°í¸®ÁòÀ» È®½ÇÈ÷ ÀÌÇØÇÏ´Â °ÍÀÌ ¹Ù¶÷Á÷Çϳª, À̵éÀ» ³Ê¹« °Á¶ÇÏ´Ù º¸¸é
ÀÚÄ© Ãʺ¸ÀÚµéÀÇ data mining¿¡ ´ëÇÑ Èï¹Ì¿Í °ü½ÉÀ» ¹Ý°¨½Ãų ¼ö ÀÖÀ¸¹Ç·Î data miningÀÇ
Àü¹ÝÀûÀÎ °³³ä°ú »ç·Ê¸¦ ¼Ò°³ÇÑ´Ù.
ÀϹÝÀûÀ¸·Î µ¥ÀÌÅ͸¦ ºÐ¼®Çϴµ¥ »ç¿ëµÇ´Â ±â¹ýµéÀº ´ÙÀ½°ú °°´Ù.
data mining ±â¹ýÀ̶õ
´ë·®ÀÇ µ¥ÀÌÅͷκÎÅÍ »õ·Ó°í ÀǹÌÀÖ´Â Á¤º¸¸¦ ÃßÃâÇÏ´Â ±â¼úÀÌ´Ù. µû¶ó¼ À§¿¡¼
³ª¿ÇÑ ±â¹ýµéÀº °øÈ÷ µ¥ÀÌÅͷκÎÅÍ Á¤º¸¸¦ »Ì¾Æ³»´Â ±â´ÉÀ» Á¦°øÇϱ⠶§¹®¿¡ ³ÐÀº
Àǹ̿¡¼ data mining ±â¹ýÀ̶ó ÇØ¼®ÇÒ ¼ö ÀÖÀ¸¸ç, ÀϺΠdata mining °ü·Ã ¼Àûµéµµ
ÀÌ·¯ÇÑ ÇØ¼®¿¡ µû¸£°í ÀÖ´Ù. ±×·¯³ª ÀϹÝÁúÀÇ ½Ã°¢È, ±×¸®°í OLAP ±â¹ýÀº ±× µ¿¾È
¾Ë·ÁÁöÁö ¾ÊÀº »õ·Î¿î Á¤º¸¸¦ »ç¿ëÀÚÀÇ °¡ÀÌµå ¾øÀÌ Ã£À» ¼ö Àִ°¡ ÇÏ´Â °üÁ¡¿¡¼
º¼ ¶§, ´ÜÁö ±âÁ¸¿¡ °¡Áö°í ÀÖ´ø Á¤º¸(°¡¼³)¸¦ È®ÀÎÇÏ´Â ±â´ÉÀ» Á¦°øÇÑ´Ù°í ÇÒ ¼ö
Àֱ⠶§¹®¿¡ Åë»óÀûÀ¸·Î data mining ±â¹ý¿¡¼ Á¦¿Ü½ÃŰ´Â °æÇâÀÌ ¸¹´Ù. ±×·¯³ª
±¤ÀÇÀûÀÎ ÇØ¼®ÀÇ ¹è°æ¿¡´Â ¼û°ÜÁø Á¤º¸¸¦ ã¾Æ³Â´Ù°í ÇÏ´õ¶óµµ °ËÁõÀ» À§ÇØ ½Ã°¢È
±â¹ýÀ̳ª OLAPµµ±¸¸¦ »ç¿ëÇØ¾ß ÇÑ´Ù´Â ÀǰßÀÌ Æ÷ÇԵȴÙ.
ÇùÀÇÀûÀ¸·Î
ÇØ¼®Çϸé À§ÀÇ ¼¼ °¡Áö ±â¹ýÀ» Á¦¿ÜÇÑ ³ª¸ÓÁö ¸ðµÎ°¡ data mining ±â¹ýÀÌ´Ù. ±×·¯³ª
ÀÌ Áß¿¡¼µµ ÀÇ»ç°áÁ¤³ª¹«¿Í ½Å°æ¸Á ±â¹ý µî°ú °°ÀÌ ÀΰøÁö´É(artificial intelligence)¿¡
±â¹ÝÀ» µÐ ±â¹ýµéÀÌ ´ëÇ¥ÀûÀÎ data mining ±â¹ýÀ̶ó°í ÇÏ´Â Àǰ߰ú ÀÌµé ¸ðµÎ¸¦
±âÁ¸ÀÇ Åë°è±â¹ý ¹üÁÖ¿¡ Æ÷ÇÔ½ÃŰ´Â ÀǰßÀÌ ÇÐÀڵ鰣¿¡ ºÐºÐÇÏ´Ù. ½ÇÁ¦·Î ÀÇ»ç°áÁ¤³ª¹«³ª
½Å°æ¸Á°ú °°ÀÌ ±â°èÇнÀ(machine learning)¿¡ ±Ù°ÅÇÑ ±â¹ýµé¿¡ ´ëÇÑ È°¹ßÇÑ ¿¬±¸°¡
½ÃÀÛµÈ ¿øÀÎÁßÀÇ Çϳª°¡ ÀüÅëÀûÀÎ Åë°è±â¹ýÀ» ÅëÇÑ µ¥ÀÌÅÍ ºÐ¼®ÀÇ ÇѰèÀÌ´Ù. ÀüÅëÀûÀÎ
Åë°è±â¹ýµéÀº ¿À·£ ¿ª»ç¿Í źźÇÑ ÀÌ·ÐÀ» ¹è°æÀ¸·Î ÇÑ °ËÁõµÈ ±â¹ýÀ¸·Î º¯¼ö°£ÀÇ
»ó°ü°ü°è¸¦ ¹ß°ßÇϰųª, ¸ñÇ¥º¯¼ö(ºÎ·ù)¿¡ ¿µÇâÀ» ¹ÌÄ¡´Â ÁÖ¿ä ¼Ó¼ºµéÀ» ¼±º°Çϰí
À̵éÀÇ ¿µÇâ·ÂÀ» ÇØ¼® °¡´ÉÇÑ ¼ö½ÄÀ¸·Î Á¦°øÇÏ´Â ´É·ÂÀ» Áö´Ï°í ÀÖ´Ù. ƯÈ÷ ¿¬¼ÓÇü
µ¥ÀÌÅÍ °ªÀ» °®´Â °¢°¢ÀÇ ¼Ó¼ºÀÌ ¸ñÇ¥º¯¼ö¿¡ ¹ÌÄ¡´Â ¿µÇâ¿¡ ´ëÇÑ ¼³¸í·ÂÀº Ÿ ±â¹ýµé¿¡
ºñÇØ ¿ùµîÇÏ´Ù. ¹Ý¸é µ¥ÀÌÅÍ °ªµéÀÇ Á¤±ÔºÐÇ¥, °øºÐ»ê(covariance) µî°ú °°ÀÌ ¿©·¯
°¡Áö Åë°èÇÐÀû °¡Á¤À» ¿ä±¸ÇÏ´Â °æ¿ì°¡ ¸¹°í, µ¥ÀÌÅÍ¿¡ ´Ù¼öÀÇ ¹üÁÖÇü(categorical)
º¯¼ö°¡ Æ÷ÇԵǾî ÀÖÀ» ¶§ À̵éÀ» °¡º¯¼ö(dummy variable)·Î º¯È¯½ÃŰ´Â °úÁ¤¿¡¼
¹ß»ýÇÒ ¼ö ÀÖ´Â Ä¡¿ìħ(bias) µîÀÇ ÇѰ踦 Áö´Ï°í ÀÖ´Ù. µû¶ó¼ ÀÌ·¯ÇÑ °¡Á¤À» ¸¸Á·ÇÏÁö
¾Ê´Â µ¥ÀÌÅ͸¦ ºÐ¼®ÇÏ¿© ¾ò¾îÁö´Â Á¤º¸´Â ½Å·Úµµ°¡ ³·°í data miningÀÇ Á¤ÀÇ¿¡¼
¿ä±¸ÇÏ´Â 'ÀǹÌÀÖ´Â' Á¤º¸°¡ µÉ ¼ö ¾ø´Ù. ±×·¯³ª Åë°è´Â µ¥ÀÌÅÍ ºÐ¼® ÀÛ¾÷¿¡ Ç×»ó
±âÃʰ¡ µÇ´Â ºÐ¾ß·Î¼, ½ÇÁ¦·Î ±â°èÇнÀÀ» ±Ù°£À¸·Î ÇÏ´Â ±â¹ýµéÀÇ ÀÌ·ÐÀû ±Ù°Å°¡
µÇ¸ç ±â¹ýÀ» ÅëÇØ µµÃâµÇ´Â Á¤º¸¸¦ Æò°¡Çϰí ÇØ¼®Çϴµ¥ À־µ ¹Ýµå½Ã ÇÊ¿äÇÏ´Ù.
ÀÌ·¯ÇÑ ÀÌÀ¯·Î data mining ÀÛ¾÷¿¡ ÀÖ¾î¼ À¯´ÉÇÑ Åë°èÀü¹®°¡ÀÇ Á¸ÀçÀ¯¹«´Â ÀÛ¾÷
¼ºÆÐ¿¡ Àý´ëÀûÀÎ ¿µÇâÀ» ¹ÌÄ£´Ù.
ÀÇ»ç°áÁ¤³ª¹«´Â data
miningÀÇ
ºÐ·ù ÀÛ¾÷¿¡ ÁÖ·Î »ç¿ëµÇ´Â ±â¹ýÀ¸·Î, °ú°Å¿¡ ¼öÁýµÈ µ¥ÀÌÆ®ÀÇ ·¹ÄÚµåµéÀ» ºÐ¼®ÇÏ¿©
ÀÌµé »çÀÌ¿¡ Á¸ÀçÇÏ´Â ÆÐÅÏ, Áï ºÎ·ùº° Ư¼ºÀ» ¼Ó¼ºÀÇ Á¶ÇÕÀ¸·Î ³ªÅ¸³»´Â ºÐ·ù¸ðÇüÀ»
³ª¹«ÀÇ ÇüÅ·Π¸¸µå´Â °ÍÀÌ´Ù. ±×¸®°í ÀÌ·¸°Ô ¸¸µé¾îÁø ºÐ·ù¸ðÇüÀº »õ·Î¿î ·¹Äڵ带
ºÐ·ùÇϰí ÇØ´ç ºÎ·ùÀÇ °ªÀ» ¿¹ÃøÇϴµ¥ »ç¿ëµÈ´Ù. ÀÇ»ç°áÁ¤³ª¹«°¡ ¾î¶»°Ô »õ·Î¿î
·¹ÄÚµåÀÇ ÇØ´ç ºÎ·ù°ªÀ» ¿¹ÃøÇϴ°¡´Â ¾î·ÈÀ» ¶§ ÀÚÁÖ ÇÏ´ø '½º¹«°í°³' ³îÀ̸¦ ¶°¿Ã·Áº¸¸é
ÀÌÇØÇϱ⠽±´Ù. ÀÌ ³îÀÌ¿¡¼´Â ÇÑ »ç¶÷ÀÌ Æ¯Á¤ÇÑ »ç¹°À̳ª »ç°Ç, ¶Ç´Â Àι°À̳ª Àå¼Ò¿Í
°°Àº °³Ã¼ ÇÑ °¡Áö¸¦ ¸¶À½ ¼ÓÀ¸·Î »ý°¢ÇÑ´Ù. ±×·¯¸é ³ª¸ÓÁö »ç¶÷µéÀº "±×°ÍÀÌ
»ç¶÷ÀԴϱî?"¿Í °°Àº Áú¹®À» ¹Ýº¹Çϸç Á¤´äÀ» ¸ÂÃâ ¶§±îÁö ÃÖ°í 20ȸÀÇ Áú¹®
±âȸ¸¦ °®´Â´Ù. ±×·¯³ª ³îÀÌ¿¡ ´É¼÷ÇÑ »ç¶÷µéÀº 20ȸÀÇ Áú¹® ±âȸ¸¦ ¸ðµÎ »ç¿ëÇϱâ
º¸´Ù´Â Á¤´äÀ» À¯µµÇÒ ¼ö ÀÖ´Â ¿¹¸®ÇÑ Áú¹®À» ¸î ¹ø ´øÁö°í´Â Á¤´äÀ» ¸ÂÃß´Â °æ¿ì°¡
¸¹´Ù. ÀÌ ³îÀÌ¿Í ¸¶Âù°¡Áö·Î ÀÇ»ç°áÁ¤³ª¹«µµ »õ·Î¿î ·¹ÄÚµåÀÇ ºÎ·ù°ªÀ» ¿¹ÃøÇϱâ
À§ÇØ ÀÌ¹Ì ¸¸µé¾îÁø ºÐ·ù¸ðÇü(ÀÇ»ç°áÁ¤³ª¹«)ÀÌ Áö½ÃÇÏ´Â ¹Ù¿¡ µû¶ó ·¹ÄÚµåÀÇ ¼Ó¼º°ªÀ»
Áú¹®ÇÏ´Â ÀÛ¾÷À» ¹Ýº¹ÀûÀ¸·Î ¼öÇàÇÑ´Ù. ƯÈ÷ °áÁ¤ÀûÀÎ Áú¹®À» ´øÁö°Ô µÇ¸é ´Ù¸¥ ¸ðµç
¼Ó¼ºÀÇ °ªÀ» ¹¯Áö ¾Ê°íµµ ·¹ÄÚµåÀÇ ºÎ·ù°ªÀ» Á¤È®È÷ ¿¹ÃøÇÒ ¼ö ÀÕ´Ù. µû¶ó¼ ·¹Äڵ带
ºÐ·ùÇÏ°í ¿¹ÃøÇÒ ¼ö ÀÖ´Â ³ª¹«(¸ðÇü)¸¦ ¾ó¸¶³ª Àß ¸¸µå´À³Ä°¡ ÀÇ»ç°áÁ¤³ª¹« ±â¹ýÀÇ
ÇÙ½ÉÀÌ´Ù.
ÀÇ»ç°áÁ¤³ª¹«´Â ¼øÈ¯Àû ºÐÇÒ(recursive partitioning)
¹æ½ÄÀ» ÀÌ¿ëÇÏ¿© ³ª¹«¸¦ ±¸ÃàÇÏ´Â ±â¹ýÀ¸·Î, ³ª¹«ÀÇ °¡Àå »ó´Ü¿¡ À§Ä¡ÇÏ´Â »Ñ¸®¸¶µð(root
node), ¼Ó¼ºÀÇ ºÐ¸®±âÁØÀ» Æ÷ÇÔÇÏ´Â ³»ºÎ¸¶µð(internal nodes), ¸¶µð¿Í ¸¶µð¸¦ À̾îÁÖ´Â
°¡Áö(link), ±×¸®°í ÃÖÁ¾ ºÐ·ù¸¦ ÀǹÌÇÏ´Â ÀÙ(leaf)µé·Î ±¸¼ºµÈ´Ù. ±×¸² 1Àº
data miningÀÇ °³¿ä¿¡¼ ÀÛ¾÷À¯Çü Áß ºÐ·ù±ÔÄ¢¿¡¼ ¿¹½ÃÇÏ¿´´ø Åë½Å±â±â ÆÇ¸Å¾÷üÀÇ
°í°´¹ÝÀÀ µ¥ÀÌÅ͸¦ ÀÌ¿ëÇÏ¿© ÀÇ»ç°áÁ¤³ª¹«¸¦ ±¸ÃàÇÑ °ÍÀε¥, ±àÁ¤Àû('¿¹')À¸·Î ÀÀ´äÇÑ
°í°´µé°ú ºÎÁ¤Àû('¾Æ´Ï¿À')À¸·Î ÀÀ´äÇÑ °í°´µéÀ» Ư¼º¿¡ µû¶ó ºÐ·ùÇϰí, ÇâÈÄ DM(Direct
Mail) ¹ß¼Û½Ã ±àÁ¤ÀûÀÎ ¹ÝÀÀÀ» º¸ÀÏ ¸¸ÇÑ °í°´µéÀ» ¿¹ÃøÇÏ´Â °ÍÀ» ¸ñÀûÀ¸·Î ÇÑ´Ù.
µ¥ÀÌÅÍ´Â 'Á÷¾÷', '¼ºº°', '°ÅÁÖÁö', '³ªÀÌ'¶ó´Â 4°¡ÁöÀÇ ¼Ó¼º°ú ºÎ·ù¿¡ ÇØ´çÇÏ´Â
'ÀÀ´ä'À¸·Î ±¸¼ºµÇ¾î ÀÖ°í, Àüü ·¹ÄÚµå(°í°´)ÀÇ ¼ö´Â 14°³À̸ç, ÀÌ Áß 5¸íÀÇ °í°´ÀÌ
'¾Æ´Ï¿À', 9¸íÀÌ '¿¹'¶ó°í ÀÀ´äÇß´Ù. ÀÇ»ç°áÁ¤³ª¹« ±â¹ýÀº ¸ÕÀú °¢ ¼Ó¼ºµéÀÌ °í°´µéÀ»
ºÐ·ùÇϴµ¥ ¿µÇâÀ» ¹ÌÄ¡´Â Á¤µµ¸¦ ÃøÁ¤ÇÑ ÈÄ, ±× Áß¿¡¼ °¡Àå ¿µÇâ·ÂÀÌ ÀÖ´Â ¼Ó¼ºÀ»
¼±Á¤ÇÏ¿© ³ª¹«ÀÇ »Ñ¸®¸¶µð¿¡ ÁöÁ¤ÇÑ´Ù. À§ÀÇ ÀÇ»ç°áÁ¤³ª¹«ÀÇ °æ¿ì 'Á÷¾÷'À̶ó´Â ¼Ó¼ºÀÌ
³ª¹«ÀÇ »Ñ¸® ¸¶µð·Î ¼±Á¤µÇ¾úÀ¸¸ç, °í°´µéÀº ÇØ´ç ¼Ó¼ºÀÇ °ª¿¡ µû¶ó '°í¿ë', 'ÀÚ¿µ',
'¹«Á÷'À̶ó´Â 3°³ÀÇ °¡Áö·Î ºÐ¸®µÇ¾ú´Ù.
±×¸² 1 ÀÇ»ç°áÁ¤³ª¹«¸¦ ÀÌ¿ëÇÑ °í°´ºÐ·ù ¸ðÇü
¿©±â¿¡¼ ¿ì¸®´Â °í°´ÀÇ
Á÷¾÷ÀÌ 'ÀÚ¿µ'ÀÎ °æ¿ì '¼ºº°'°ú '°ÅÁÖÁö', ±×¸®°í '³ªÀÌ'¿¡ °ü°è¾øÀÌ '¿¹'¶ó°í ÀÀ´äÇÑ´Ù´Â
ù ¹øÂ° ±ÔÄ¢À» ¹ß°ßÇÒ ¼ö ÀÖ´Ù. ¹Ý¸é¿¡ Àüü 14¸íÀÇ °í°´µé Áß¿¡¼ Á÷¾÷ÀÌ '°í¿ë'ÀÎ
°¡Áö¿¡ ¼ÓÇÑ °í°´ÀÇ ¼ö´Â 5¸íÀ¸·Î¼ ÀÌ °¡¿îµ¥ 2¸íÀÌ '¾Æ´Ï¿À', 3¸íÀÌ '¿¹'¶ó°í ÀÀ´äÇß´Ù.
ÀÇ»ç°áÁ¤³ª¹« ±â¹ýÀº À̵é 5¸íÀÇ °í°´À» °è¼Ó ºÐ·ùÇϱâ À§ÇØ ³ª¹«¸¦ È®Àå½Ã۴µ¥,
°¡Àå Å« ¿µÇâ·ÂÀ» ¹ÌÄ¡´Â ¼Ó¼ºÀÌ '³ªÀÌ'¶ó´Â °ÍÀ» ã¾Æ³»¾î ³»ºÎ¸¶µð·Î ÁöÁ¤ÇÏ¿´°í
ºÐ¸®ÀÇ ±âÁØÀÌ µÇ´Â °ªÀº 43¼¼·Î »êÁ¤ÇÏ¿´´Ù. ƯÈ÷ ³ªÀ̰¡ 43¼¼ ÀÌ»óÀÎ 2¸í °í°´
¸ðµÎ´Â '¾Æ´Ï¿À'¶ó°í ÀÀ´äÇߴµ¥, À̸¦ ±Ù°Å·Î Á÷¾÷ÀÌ '°í¿ë'ÀÌ°í ³ªÀ̰¡ '43¼¼'
ÀÌ»óÀÎ °í°´Àº '¾Æ´Ï¿À'¶ó°í ÀÀ´äÇÑ´Ù´Â µÎ ¹øÂ° ±ÔÄ¢ÀÌ µµÃâµÈ´Ù. ÀÌ¿Í °°Àº ¹æ¹ýÀ¸·Î
³ª¹«¸¦ È®ÀåÇÑ °á°ú ÃÑ 5°¡ÁöÀÇ ºÐ·ù±ÔÄ¢ÀÌ ¸¸µé¾îÁ³´Ù. ÀÌÁ¦ Á÷Àå¿¡ ´Ù´Ï°í, °ÅÁÖÁö°¡
°³²À̸ç, ³ªÀ̰¡ 48¼¼ÀÎ »õ·Î¿î ³²¼º°í°´¿¡°Ô DMÀ» ¹ß¼ÛÇÏ¸é °ú¿¬ ¾î¶»°Ô ¹ÝÀÀÇÒ
°ÍÀΰ¡¸¦ ÆÇ´ÜÇØ º¸¸é, À§ÀÇ ±ÔÄ¢¿¡ µû¶ó '¾Æ´Ï¿À'¶ó ÀÀ´äÇϸ®¶ó°í ¿¹ÃøÇÒ ¼ö ÀÖ´Ù.
µû¶ó¼ ÀÌ·¯ÇÑ °í°´Àº DM¹ß¼Û ´ë»óÀÚ ¸í´Ü¿¡¼ Á¦¿Ü½ÃŰ´Â °ÍÀÌ ºñ¿ë°ú ³ë·Â Àý°¨
Â÷¿ø¿¡¼ À¯¸®ÇÒ °ÍÀÌ´Ù.
±×¸² 1¿¡¼´Â µ¥ÀÌÅÍ»ó¿¡ ¿À·ù°ªÀ̳ª
°á¼Õ°ª(missing) µîÀÌ Á¸ÀçÇÏÁö ¾Ê¾Ò±â ¶§¹®¿¡ ¸ðµç ·¹ÄÚµåµéÀ» ¿Ïº®ÇÏ°Ô ºÐ·ùÇÒ
¶§±îÁö ³ª¹«¸¦ È®Àå½ÃŲ ÈÄ, ºÐ·ù±ÔÄ¢À» µµÃâÇÏ¿´´Ù. ±×·¯³ª ½ÇÁ¦ ¾÷¹« ÇöÀå¿¡¼
µ¥ÀÌÅ͸¦ ¼öÁýÇØº¸¸é ´Ù¼Ò°£ÀÇ Â÷ÀÌ´Â ÀÖÁö¸¸ ´ëºÎºÐÀÇ µ¥ÀÌÅͰ¡ ¿À·ù°ªÀ̳ª °á¼Õ°ªÀ»
Áö´Ï°í ÀÕ´Ù. ÀÌ·¯ÇÑ °æ¿ì µ¥ÀÌÅÍ¿¡ Æ÷ÇÔµÈ ¸ðµç ·¹ÄÚµåµéÀ» ¿Ïº®ÇÏ°Ô ºÐ·ùÇÒ ¶§±îÁö
³ª¹«¸¦ È®ÀåÇÏ¿© ºÐ·ù¸ðÇüÀ» ¸¸µé°Ô µÇ¸é, ºÒÇÊ¿äÇÑ ¼Ó¼ºµéÀÌ ³ª¹«ÀÇ ¸¶µð¿¡ Æ÷ÇԵDZâ
¶§¹®¿¡ ¸ðÇüÀÌ Á¦°øÇÏ´Â ±ÔÄ¢ ÀÚü°¡ ¾û¶×ÇÑ Àǹ̸¦ °®°Ô µÉ ¼ö ÀÖÀ¸¸ç, ÀÌ·Î ÀÎÇØ
»õ·Î¿î ·¹Äڵ忡 ´ëÇÑ ¿¹Ãø·ÂÀÌ °¨¼ÒÇÏ´Â °á°ú¸¦ ÃÊ·¡ÇÑ´Ù. À̰ÍÀ» ¼ÒÀ§ ¸ðÇüÀÇ '°úÀ׸ÂÃã(overfitting)'À̶ó
Çϸç, °úÀ׸ÂÃãÀ¸·Î ÀÎÇØ ºÒÇÊ¿äÇÏ°Ô º¹ÀâÇØÁø ³ª¹«ÀÇ Àǹ̾ø´Â ¸¶µð(¼Ó¼º)µéÀ» Á¦°ÅÇÏ´Â
ÀÛ¾÷À» ³ª¹« '°¡ÁöÄ¡±â(pruning)'¶ó ÇÑ´Ù. ƯÈ÷ °¡ÁöÄ¡±â ÀÛ¾÷Àº ÀÇ»ç°áÁ¤³ª¹« ¸ðÇüÀ»
±¸ÃàÇÒ ¶§ °ÅÀÇ ÇʼöÀûÀ¸·Î »ç¿ëµÈ´Ù.
½Å°æ¸ÁÀº Àΰ£ µÎ³úÀÇ
½Å°æ¼¼Æ÷¸¦ ¸ð¹æÇÑ °³³äÀ¸·Î ¸¶µð(node)¿Í °í¸®(link)·Î ±¸¼ºµÈ ¸Á±¸Á¶¸¦ ¸ðÇüÈÇϰí,
ÀÇ»ç°áÁ¤³ª¹«¿Í ¸¶Âù°¡Áö·Î °ú°Å¿¡ ¼öÁýµÈ µ¥ÀÌÅͷκÎÅÍ ¹Ýº¹ÀûÀÎ ÇнÀ°úÁ¤À» °ÅÃÄ
µ¥ÀÌÅÍ¿¡ ³»ÀçµÇ¾î ÀÖ´Â ÆÐÅÏÀ» ã¾Æ³»´Â ¸ðµ¨¸µ ±â¹ýÀÌ´Ù. ½Å°æ¸ÁÀº ºÐ·ù, ±ºÁý,
¿¬°ü±ÔÄ¢ ¹ß°ß°ú °°Àº ÀÛ¾÷¿¡ ³Î¸® »ç¿ëµÇ´Â data mining ±â¹ýÀ¸·Î ½Å¿ëÆò°¡, Ä«µå
µµ¿ëÆÐÅÏ ºÐ¼®, ¼ö¿ä ¹× ÆÇ¸Å ¿¹Ãø, °í°´¼¼ºÐÈ(customer segmentation) µî ¿©·¯
°¡Áö ¸ñÀûÀ¸·Î ´Ù¾çÇÑ »ê¾÷ºÐ¾ß¿¡ Æø ³Ð°Ô Àû¿ëµÇ°í ÀÖ´Ù.
±×·¯¸é
½Å°æ¸Á ¸ðÇüÀº ¾î¶»°Ô ±¸ÇöµÇ¾î ÀÛµ¿Çϴ°¡? ÀÌÇØ¸¦ µ½±â À§ÇØ ½Å°æ¸Á ¸ðÇüÀ» ÅëÇØ
ÁÖÅÃÀ̳ª °Ç¹°ÀÇ °¡°ÝÀ» Æò°¡ÇÏ´Â »ç·Ê¸¦ »ìÆìº¸±â·Î ÇÏÀÚ(ÀÚ·á¿ø: Data Mining Techniques
for Marketing, Sales, and Customer Support by M. Berry and G. Linoff, John Wiley
& Sons, 1997).
ÁÖÅÃÀÇ ¸Å¸Å Áß°³³ª °¨Á¤À» À§Çؼ´Â ÁÖÅÃÀÇ
°¡Ä¡¸¦ Á¦´ë·Î Æò°¡ÇØ¾ß ÇÑ´Ù. ƯÈ÷ Àå±â ´ëÃâÀ» ÅëÇØ ÁÖÅÃÀ» ±¸ÀÔÇÏ´Â ¹æ½ÄÀÌ °ü·ÊȵǾî
ÀÖ´Â ¹Ì±¹ÀÇ °æ¿ì, ÁÖÅÃÀ» ´ãº¸·Î ´ëÃâÀ» ÇàÇÏ´Â ±ÝÀ¶±â°üµé¿¡°Ô´Â Á¤È®È÷ °¡°ÝÀ»
Æò°¡ÇÏ´Â ´É·ÂÀÌ ¹«¾ùº¸´Ùµµ Áß¿äÇÏ´Ù. ½ÇÁ¦·Î ÁÖÅà Àå±â´ëÃâ ¾÷¹«¸¦ ÁÖ·Î Çϸç Àü±¹Àû
üÀÎÀ» º¸À¯ÇÑ ¹Ì±¹ÀÇ ÈÄ·¹µð¸Æ(Freddie Mac)»ç´Â ¹Ì±¹ Àü¿ª¿¡ Èð¾îÁ® ÀÖ´Â ÁÖÅõéÀÇ
°¡°ÝÀ» ÀÚµ¿ÀûÀ¸·Î Æò°¡ÇÏ´Â '·Ð ÇÁ·Î½ºÆåÅÍ(Loan Prospector)'¶ó´Â ½Ã½ºÅÛÀ» ¿ÜÁÖ¸¦
ÁÖ¾î °³¹ßÇÏ¿´´Âµ¥, ÀÌ ½Ã½ºÅÛÀÇ ±â¹ÝÀÌ µÈ °ÍÀÌ ¹Ù·Î ½Å°æ¸Á ±â¹ýÀÌ´Ù. ÀÌ ½Ã½ºÅÛÀ»
°³¹ßÇÏ°Ô µÈ ¹è°æ¿¡´Â ÁÖÅà °¡°ÝÆò°¡ Àü¹®°¡µéÀÌ °æÇèÇÑ ÀڽŵéÀÇ Áö½ÄÀÇ ÇѰ谡
°áÁ¤ÀûÀÎ ¿øÀÎÀÌ µÇ¾ú´Ù. ±×µéÀº ´ëµµ½Ã¿¡ À§Ä¡ÇÑ ÁÖÅÃÀÇ °¡°ÝÀÌ µµ½Ã ±Ù±³ÀÇ ÁÖÅõ鿡
ºñÇØ ºñ½Î´Ù´Â Á¡, ±×¸®°í ¹æÀÇ °³¼ö, ÁÖÂ÷°ø°£ÀÇ Å©±â, ÁÖÅÃÀÇ Æò¼ö µî ´Ù¾çÇÑ ¿ä¼ÒµéÀÌ
ÁÖÅÃÀÇ °¡°ÝÀ» °áÁ¤ÇÑ´Ù´Â °ÍÀ» ¾Ë°í ÀÖ¾ú´Ù. ±×·¯³ª À̵éÀ» Á¶ÇÕÇØ¼ °¡°Ý ¿¹Ãø
¸ðÇüÀ» ¸¸µå´Âµ¥ ¸¹Àº ¾î·Á¿òÀ» °Þ¾ú´Ù. ¹°·Ð ȸ±ÍºÐ¼®°ú °°Àº Åë°è±â¹ýÀ» »ç¿ëÇÏ¿©
¸ðÇüÀ» ¸¸µé¾î º¸¾ÒÀ¸³ª, ¿¹ÃøÀÇ Á¤È®µµ°¡ ¸¸Á·½º·´Áö ¸øÇß´Ù. ÀÌ·¯ÇÑ ÀÌÀ¯·Î ½Å°æ¸Á
±â¹ý¿¡ °ü½ÉÀ» ±â¿ïÀÌ°Ô µÈ °ÍÀÌ´Ù.
ÀÌÁ¦ 1,000°ÇÀÇ ·¹ÄÚµå·Î ±¸¼ºµÈ
°¡»ó µ¥ÀÌÅ͸¦ ÀÌ¿ëÇÏ¿© ½Å°æ¸Á ¸ðÇüÀÌ ¸¸µé¾îÁö´Â °úÁ¤À» »ìÆìº¸µµ·Ï ÇÏÀÚ. Ç¥ 1Àº
µ¥ÀÌÅ͸¦ ±¸¼ºÇÏ´Â ¼Ó¼ºµéÀÇ À̸§°ú ³»¿ë, ±×¸®°í °ªÀÇ ¹üÀ§¸¦ ³ªÅ¸³»°í ÀÖ´Ù. ¹°·Ð
ÀÌµé ¼Ó¼º ¿Ü¿¡µµ ÁÖº¯ÀÇ È¯°æ, ¼Ò¼ÓµÈ Çбº, ÁÖÅÃÀÇ »óÅ µî°ú °°ÀÌ ÁÖÅÃÀÇ °¡°ÝÀ»
°áÁ¤Çϴµ¥ ¿µÇâÀ» ÁÙ ¼ö ÀÖ´Â ¼Ó¼ºµéÀ» °í·ÁÇÒ ¼ö ÀÖÀ¸³ª ¿©±â¼´Â »ç·Ê¸¦ °£´ÜÈ÷
Çϱâ À§ÇØ Á¦¿Ü ½Ã۵µ·Ï ÇÑ´Ù.
Ç¥ 1 ÁÖÅð¡°Ý¿¹Ãø ¸ðÇüÀ» ±¸ÃàÇϴµ¥
»ç¿ëµÈ µ¥ÀÌÅÍ
¼Ó¼º ¸í |
³» ¿ë |
°ªÀÇ ¹üÀ§ |
¿ª ÇÒ |
¹æÀÇ °³¼ö |
¹æÀÇ °³¼ö |
1~6 |
ÀԷº¯¼ö |
¿¬µµ |
ÁÖÅÃÀÌ °ÇÃàµÈ ¿¬µµ |
1945~1999 |
|
³¹æ |
³¹æÀÇ Çü½Ä |
{A, B} |
|
ÁÖÂ÷°ø°£ |
ÃÖ´ë ÁÖÂ÷Â÷·®ÀÇ ¼ö |
0~3 |
|
°Å½Ç |
°Å½ÇÀÇ Å©±â (Æò¼ö) |
5~50 |
|
Ãþ¼ö |
ÁÖÅÃÀÇ Ãþ¼ö |
1~3 |
|
Å©±â |
°ÇÆò |
10~1000 |
|
¹æÇâ |
°Å½ÇÀÇ Á¤¸éÀÌ ÇâÇÑ ¹æÇâ |
{µ¿, ¼, ³², ºÏ} |
|
ÆÈ¸° ½Ã±â |
ÀÌ´ÞÀ» ±âÁØÀ¸·Î °³¿ù ¼ö |
0~23 |
|
°¡°Ý |
ÆÇ¸Å °¡°Ý(´ÜÀ§: ¸¸¿ø) |
5,000~30,000 |
¸ñÇ¥º¯¼ö |
½Å°æ¸Á ¸ðÇüÀº ¸ðµç ÀԷº¯¼ö¿Í ¸ñÇ¥º¯¼ö°¡ 0¿¡¼ 1»çÀÌ ¹üÀ§ÀÇ °ªÀ» ÃëÇÒ ¶§ ÃÖÀûÀÇ ¼º´ÉÀ» Á¦°øÇÑ´Ù. µû¶ó¼ º¯¼öÀÇ ¼º°Ý¿¡ »ó°ü¾øÀÌ ¸ðµç º¯¼öÀÇ °ªÀ» 0°ú 1»çÀÌÀÇ °ªÀ¸·Î º¯È¯½ÃŰ´Â °ÍÀÌ ¹Ù¶÷Á÷ÇÏ´Ù. Ç¥ 2´Â 1,000°³ÀÇ ·¹ÄÚµå Áß Ã¹ ¹øÂ° ·¹Äڵ尡 °®´Â ½ÇÁ¦ °ªµéÀ» ¼Ó¼ºº°·Î ³ª¿Çϰí, À̵éÀ» º¯È¯½ÃŲ °ªÀ» ³ªÅ¸³½´Ù. ¿©±â¿¡¼ ¹æÀÇ °³¼ö '4'´Â ´ÙÀ½ÀÇ ½ÄÀ» ÅëÇØ 0¿¡¼ 1»çÀÌÀÇ °ªÀ¸·Î º¯È¯µÇ¾ú´Ù. (4-1)/(6-1)=0.6000. ³¹æ°ú °°Àº ÀÌÁø(binary) º¯¼öÀÇ °æ¿ì¿¡´Â °ª 'A'¸¦ '0'À¸·Î, °ª B¸¦ '1'·Î º¯È¯ÇÏ¿´À¸¸ç, ¹æÇâ°ú °°ÀÌ 4°³ÀÇ °ªÀ» °®´Â ÀÌ»êÇü º¯¼ö´Â 4°³ÀÇ ÀÌÁø º¯¼ö¸¦ ¸¸µé¾î °¢°¢ '0' ¶Ç´Â '1'À» ÃëÇϵµ·Ï ÇÏ¿´´Ù. ±×·¯³ª ÀÌ¿Í °°Àº °æ¿ì ÀÌÁø º¯¼ö¸¦ Ãß°¡ÇÏ´Â ´ë½Å, ù ¹øÂ° °ªÀ» '0.00', µÑ° °ªÀ» '0.33', ¼Â° °ªÀ» '0.67', ±×¸®°í ¸¶Áö¸· °ªÀ» '1.00'À¸·Î º¯È¯Çϱ⵵ ÇÑ´Ù.
Ç¥ 2 ¼Ó¼ºÀÇ ½ÇÁ¦ °ª°ú º¯È¯µÈ °ª
¼Ó¼º ¸í |
°ªÀÇ ¹üÀ§ |
½ÇÁ¦ °ª |
º¯È¯µÈ °ª |
¹æÀÇ °³¼ö |
1~6 |
4 |
0.6000 |
¿¬µµ |
1945~1995 |
1980 |
0.7000 |
³¹æ |
{A, B} |
B |
1.0000 |
ÁÖÂ÷°ø°£ |
0~3 |
1 |
0.3333 |
°Å½Ç |
5~50 |
25 |
0.5555 |
Ãþ¼ö |
1~3 |
2 |
0.5000 |
Å©±â |
10~100 |
60 |
0.667 |
¹æÇâ(µ¿) |
{¿¹, ¾Æ´Ï¿À} |
0 |
0.0000 |
¹æÇâ(¼) |
{¿¹, ¾Æ´Ï¿À} |
0 |
0.0000 |
¹æÇâ(³²) |
{¿¹, ¾Æ´Ï¿À} |
1 |
1.0000 |
¹æÇâ(ºÏ) |
{¿¹, ¾Æ´Ï¿À} |
0 |
0.0000 |
ÆÈ¸° ½Ã±â |
0~23 |
8 |
0.3478 |
°¡°Ý |
5,000~30,000 |
10,000 |
0.2000 |
±×¸² 2´Â ÀÚÁÖ »ç¿ëµÇ´Â
½Å°æ¸Á ±¸Á¶µéÀÌ´Ù. (a)´Â ´Ù¼öÀÇ ¸¶µðµéÀ» Æ÷ÇÔÇÑ ÀÔ·ÂÃþ(input layer)°ú ÇϳªÀÇ
Ãâ·Â¸¶µð·Î ±¸¼ºµÈ °¡Àå °£´ÜÇÑ ¸Á±¸Á¶·Î¼, Åë°èÀÇ ·ÎÁö½ºÆ½ ȸ±ÍºÐ¼®(logistic
regression)°ú µ¿ÀÏÇÑ ¸ðÇüÀ» Á¦°øÇÑ´Ù. (b), (c), (d)ÀÇ ±¸Á¶´Â ÀÔ·ÂÃþ°ú Ãâ·ÂÃþ(output
layer) »çÀÌ¿¡ Àº´ÐÃþ(hidden layer)À» Ãß°¡ÇÑ °ÍÀ¸·Î Àº´ÐÃþÀÇ ¸¶µð ¼ö¸¦ Áõ°¡½Ã۰Ô
µÇ¸é ºÐ·ù´É·ÂÀÌ Çâ»óµÇ¾î ´õ ¸¹Àº ÆÐÅÏÀ» ÀνÄÇÒ ¼ö ÀÖÁö¸¸ ÀÚÄ© °úÀ׸ÂÃãÀÇ °á°ú¸¦
ÃÊ·¡Çϱ⠽±´Ù. À̰ÍÀº ¸¶Ä¡ ÀÇ»ç°áÁ¤³ª¹« ±¸Ãà½Ã ¸ðµç ·¹ÄÚµåµéÀ» ¿Ïº®ÇÏ°Ô ºÐ·ùÇÒ
¶§±îÁö ³ª¹«¸¦ È®ÀåÇÏ¿©, »õ·Î¿î ·¹Äڵ忡 ´ëÇÑ ¿¹Ãø·ÂÀ» °¨¼Ò½ÃŰ´Â °Í°ú À¯»çÇÏ´Ù.
µû¶ó¼ ÀÇ»ç°áÁ¤³ª¹«¿¡¼´Â ÀûÀýÇÑ ¼öÁØ¿¡¼ ³ª¹«ÀÇ È®ÀåÀ» Áß´ÜÇÏ´Â °ÍÀÌ ÇÊ¿äÇϵíÀÌ,
½Å°æ¸Á¿¡¼´Â ÀûÁ¤ÇÑ Àº´Ð¸¶µðÀÇ ¼ö¸¦ °áÁ¤ÇÏ´Â °ÍÀÌ ÇÊ¿äÇÏ´Ù. ½Å°æ¸ÁÀº ¶ÇÇÑ (d)ÀÇ
±¸Á¶¿¡¼ º¸µíÀÌ µÎ °¡Áö ÀÌ»óÀÇ °ªÀ» °®´Â ÀÌ»êÇü Ãâ·Âº¯¼öÀÇ °ªÀ» ¿¹ÃøÇÒ ¼öµµ
ÀÖ´Ù.
±×¸² 2 ´Ù¾çÇÑ ½Å°æ¸Á ±¸Á¶
½Å°æ¸Á ±â¹ý Áß¿¡¼ °¡Àå ³Î¸® »ç¿ëµÇ´Â ÈÄÁøÀüÆÄ(back propagation) ¹æ½ÄÀº (b), (c), (d)ÀÇ °æ¿ì¿Í °°ÀÌ Àº´ÐÃþÀ» Æ÷ÇÔÇÏ´Â ±¸Á¶ÀÌ´Ù. ÀÌ ¹æ½ÄÀº ¸¶µð¿Í ¸¶µðµéÀ» ¿¬°áÇÏ´Â °í¸®µé¿¡ ÀÓÀÇ·Î Ãʱ⠰µµ(weight) °ªÀ» ÁöÁ¤ÇÏ¿© Ãʱ⠸ðÇüÀ» ¼³Á¤ÇÑ ÈÄ, ¸ðÇüÀ» ¸¸µé±â À§ÇØ ÁغñÇÑ(¸ðÇü ±¸Ãà¿ëÀ̶ó Á¤ÀÇÇÔ) µ¥ÀÌÅÍÀÇ ·¹Äڵ带 Çϳª¾¿ ¸ðÇü¿¡ ÀԷ½ÃÄÑ ¸ðÇüÀÌ Á¦½ÃÇÏ´Â ºÎ·ùÀÇ °ª°ú ½ÇÁ¦ ºÎ·ùÀÇ °ªÀ» ºñ±³ÇÑ´Ù. ¸¸¾à ÀÌ µÑÀÇ °ª¿¡ Â÷ÀÌ(¿À·ù)°¡ ÀÖÀ¸¸é Â÷À̸¦ ÃÖ¼ÒÈÇϵµ·Ï °µµÀÇ °ªÀ» Á¶Á¤ÇÑ´Ù. ÀÌ¿Í °°Àº °úÁ¤À» ÇнÀ°úÁ¤(learning process)À̶ó Çϴµ¥, ÇнÀ°úÁ¤Àº °µµ °ªÀÇ º¯È°¡ ¹ÌºñÇØÁú ¶§±îÁö ¶Ç´Â ¹Ì¸® Á¤ÇØÁø Ƚ¼ö¸¸Å ¸ðÇü ±¸Ãà¿ë ·¹ÄÚµåµéÀ» ÀԷ½Ãų ¶§±îÁö °è¼ÓµÈ´Ù. ±×¸² 3Àº ÁÖÅÃÀÇ °¡°ÝÀ» Æò°¡ÇÏ´Â ¸ðÇüÀ» ÈÄÁøÀüÆÄ ¹æ½ÄÀ» ÀÌ¿ëÇÏ¿© ±¸ÇöÇÏ´Â ¿¹ÀÌ´Ù.
±×¸² 3 ½Å°æ¸ÁÀ» ÀÌ¿ëÇÑ ÁÖÅð¡°Ý Æò°¡¸ðÇü
ÀÌ·¸°Ô ¸¸µé¾îÁø ¸ðÇüÀº ½ÃÇè¿ë µ¥ÀÌÅ͸¦ ÀÌ¿ëÇÏ¿© ¸ðÇüÀÇ ¿¹Ãø Á¤È®µµ¸¦ °ËÁõ¹ÞÀº ÈÄ, ¾÷¹«ÇöÀå¿¡ Àû¿ëµÈ´Ù. ƯÈ÷ ¸ðÇüÀº 0¿¡¼ 1»çÀÌÀÇ Ãâ·Âº¯¼ö °ªÀ» Á¦½ÃÇϱ⠶§¹®¿¡ ÀÌ °ªÀ» ½ÇÁ¦ °ªÀ¸·Î À纯ȯ½ÃŰ´Â ÀÛ¾÷ÀÌ ÇÊ¿äÇÏ´Ù. ¿¹¸¦ µé¾î, ÀÌ ¸ðÇüÀ» ÀÌ¿ëÇÏ¿© ÇÑ ÁÖÅÃÀÇ °¡°ÝÀ» ¿¹ÃøÇϱâ À§ÇØ ÇØ´ç ¼Ó¼ºÀÇ °ªÀ» ÀÔ·ÂÇÏ´Ï ¸ðÇüÀÌ Á¦½ÃÇÏ´Â ¿¹Ãø °ªÀÌ 0.60À̾ú´Ù°í ÇÏÀÚ. ±×·¯¸é ½ÇÁ¦ ¿¹Ãø °ªÀº °¡°ÝÀÇ ¹üÀ§ °ª 25,000¿¡ 0.6À» °öÇÑ ÈÄ, ÃÖ¼Ò ±âÁØ °ª 5,000 °¡°ÝÀ» ´õÇÑ 20,000ÀÌ µÈ´Ù.
µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º´Â °Å·¡(»ç°Ç)
¼Ó¿¡ Æ÷ÇÔµÈ Ç°¸ñ(Ç׸ñ)°£ÀÇ ¿¬°ü°ü°è¸¦ ¹ß°ßÇϰíÀÚ ÇÒ ¶§ »ç¿ëÇÏ´Â data mining
±â¹ýÀÌ´Ù. ºÐ¼®ÀÇ ´ë»óÀÌ µÇ´Â µ¥ÀÌÅÍ´Â µÎ °³ÀÇ º¯¼ö, Áï °Å·¡¿Í ǰ¸ñÀ¸·Î ±¸¼ºµÇ¸ç,
°¢°¢ÀÇ °Å·¡¿¡ ´ëÇØ ÇÑ °³ ÀÌ»óÀÇ Ç°¸ñµéÀÌ Á¸ÀçÇÑ´Ù. ÀϹÝÀûÀ¸·Î ÇϳªÀÇ °Å·¡´Â
ÇÑ °í°´¿¡ ÀÇÇÑ ±¸¸Å¸¦ ÀǹÌÇϸç, ǰ¸ñÀº ±× ±¸¸Å¸¦ ÅëÇØ ±¸ÀÔµÈ ¹°°ÇÀÌ´Ù. µ¿½Ã¹ß»ý
¸ÅÆ®¸¯½º´Â È®·üÀ» ÀÌ¿ëÇÏ¿© ¿¬°ü±ÔÄ¢À» Á¦°øÇϴµ¥ ¸ÕÀú ÇϳªÀÇ Ç°¸ñ¿¡ ´ëÇØ, ´ÙÀ½À¸·Î
µÎ ǰ¸ñ°£ÀÇ ¿¬°ü±ÔÄ¢À» »ý¼ºÇÏ¸ç °è¼ÓÇØ¼, ¼¼ ǰ¸ñ°£, ³× ǰ¸ñ°£ µîÀ¸·Î À̾îÁø´Ù.
¿¬°ü±ÔÄ¢Àº "(ǰ¸ñ A)¢¡(ǰ¸ñ B)"ÀÇ ÇüÅ·ΠǥÇöµÇ¸ç, "ǰ¸ñ A¸¦
Æ÷ÇÔÇÑ °Å·¡´Â ǰ¸ñ Bµµ Æ÷ÇÔÇÑ´Ù."¶ó ÇØ¼®ÇÑ´Ù.
±×¸² 4´Â
µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º°¡ Á¦°øÇÏ´Â ¿¬°ü±ÔÄ¢ÀÇ ¿¹Àε¥, »óÀ§ 5°³´Â µÎ °³ ǰ¸ñ°£ÀÇ, ³ª¸ÓÁö´Â
¼¼ °³ ǰ¸ñ°£ÀÇ ¿¬°ü±ÔÄ¢ÀÌ´Ù. ±×·¯³ª ÀÌ·¯ÇÑ ½ÄÀ¸·Î ǰ¸ñ°£ÀÇ ¿¬°ü°ü°è¸¦ µµÃâÇÒ
°æ¿ì ¸¸¾à ÇÑ »óÁ¡¿¡¼ À¯ÅëµÇ´Â ǰ¸ñÀÇ ¼ö°¡ 30°¡Áö¶ó°í¸¸ ÇÏ´õ¶óµµ °Å·¡µé¿¡ ÀÇÇØ
¸¸µé¾îÁö´Â ¸ðµç °¡´ÉÇÑ ¿¬°ü±ÔÄ¢ÀÇ ¼ö´Â (230-1), Áï 1,073,741,823°³À̸ç,
ǰ¸ñÀÇ ¼ö°¡ ´Ã¾î³¯¼ö·Ï ±ÔÄ¢ÀÇ ¼ö´Â ±âÇϱ޼öÀûÀ¸·Î Áõ°¡ÇÑ´Ù. µû¶ó¼ À̵éÀ» ¿©°úÇÏ¿©
ÀǹÌÀÖ´Â ±ÔÄ¢µé¸¸À» »Ì¾Æ³»´Â ±âÁØÀÌ ÇÊ¿äÇѵ¥, À̰ÍÀÌ ±Ù°ÅÈ®·ü(support), ½Å·ÚÈ®·ü(confidence),
±×¸®°í ¸®ÇÁÆ®(lift)ÀÌ´Ù.
±×¸² 4 µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º°¡ Á¦°øÇÏ´Â ¿¬°ü±ÔÄ¢ÀÇ ¿¹
±×¸² 5 ±Ù°ÅÈ®·ü°ú ½Å·ÚÈ®·ü
Ç¥ ¸®ÇÁÆ®ÀÇ ÀÇ¹Ì ¹× ¿¹
¸®ÇÁÆ® |
ÀÇ¹Ì |
¿¹ |
|
ǰ¸ñ »óÈ£ µ¶¸³ÀûÀÎ °ü°è |
°úÀÚ¿Í ÈÄÃß |
>1 |
ǰ¸ñ »óÈ£ ¾çÀÇ »ó°ü°ü°è |
½Ä»§°ú ¹öÅÍ |
<1 |
ǰ¸ñ »óÈ£ À½ÀÇ »ó°ü°ü°è |
º¯ºñ¾à°ú Áö»çÁ¦ |
µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º¸¦
ÀÌ¿ëÇÏ¿© ¿¬°ü±ÔÄ¢À» µµÃâÇÒ ¶§´Â ±Ù°ÅÈ®·ü, ½Å·ÚÈ®·ü, ±×¸®°í ¸®ÇÁÆ®ÀÇ ÃÖ¼Ò±âÁØÄ¡(lower
bound)¸¦ ¹Ì¸® ¼³Á¤Çϰí, ÀÌ ±âÁØÀ» ¸¸Á·ÇÏ´Â ±ÔÄ¢¸¸À» »ý¼ºÇÏ°Ô ÇÔÀ¸·Î½á ±ÔÄ¢ÀÇ
¼ö¸¦ Á¦ÇÑÇÒ ¼ö ÀÖ´Ù. ¾Æ¿ï·¯ ±Ù°ÅÈ®·ü, ½Å·ÚÈ®·ü, ±×¸®°í ¸®ÇÁÆ®´Â µ¿½Ã¹ß»ý ¸ÅÆ®¸¯½º°¡
Á¦½ÃÇÏ´Â ±ÔÄ¢µéÀ» Æò°¡Çϴµ¥ »óÈ£º¸¿ÏÀûÀÎ ±â´ÉÀ» Á¦°øÇϴµ¥ ¿¹¸¦ µé¾î, ¾î´À
ÇÑ ¿¬°ü±ÔÄ¢ÀÇ ½Å·ÚÈ®·üÀÌ Å©´õ¶óµµ µÎ ǰ¸ñÀÇ °øÅë ±¸¸ÅÀ², Áï ±Ù°ÅÈ®·üÀÌ ¾î´À
Á¤µµ ¼öÁØÀÌ µÇ¾î¾ß Àǹ̰¡ ÀÖ´Ù. ¶ÇÇÑ ¿¬°ü±ÔÄ¢ 'A¢¡B'ÀÇ ½Å·ÚÈ®·üÀÌ ³ôÀº °æ¿ì¿¡µµ
ǰ¸ñ B°¡ ±¸¸ÅµÇ´Â ±âº» È®·üÀÌ Ä¿¾ß A¸¦ °í·ÁÇØ¼ B¸¦ »ý°¢ÇÏ´Â °ÍÀÌ Àǹ̰¡ ÀÖÀ¸¹Ç·Î
¸®ÇÁÆ® °ªÀÌ 1º¸´Ù Ä¿¾ß À¯¿ëÇÑ Á¤º¸°¡ µÈ´Ù.
±×¸² 6Àº °³¿ä¿¡¼
data mining ÀÛ¾÷À¯ÇüÀÇ ¿¬°ü±ÔÄ¢¿¡¼ ¿¹½ÃÇÑ ÀÇ·ù»óÁ¡ ÆÇ¸Å µ¥ÀÌÅͷκÎÅÍ µÎ ǰ¸ñ°£ÀÇ
¿¬°ü°ü°è¸¦ µµÃâÇÑ ÈÄ, ±Ù°ÅÈ®·ü, ½Å·ÚÈ®·ü, ±×¸®°í ¸®ÇÁÆ®¸¦ °è»êÇÑ ¿¹ÀÌ´Ù. ¿©±â¿¡¼
Á¦½ÃÇÑ µÎ Á¾·ùÀÇ ¿¬°ü±ÔÄ¢Àº »óÈ£´ëĪÀûÀε¥ ±Ù°ÅÈ®·ü°ú ¸®ÇÁÆ®´Â º¯È°¡ ¾øÀ¸³ª
½Å·ÚÈ®·üÀº ¹Ù²î¾úÀ½À» ¾Ë ¼ö ÀÖ´Ù.
±×¸² 6 ¿¬°ü±ÔÄ¢ÀÇ ±Ù°ÅÈ®·ü, ½Å·ÚÈ®·ü, ¸®ÇÁÆ® »êÃâ ¿¹
K-Æò±Õ±ºÁýÈ´Â data
miningÀÇ
±ºÁýÈ ÀÛ¾÷¿¡ ÁÖ·Î »ç¿ëµÈ´Ù. ÀÌ ±â¹ýÀº N°³ÀÇ ¼Ó¼ºÀ¸·Î ±¸¼ºµÇ´Â °¢°¢ÀÇ ·¹Äڵ带
º¤ÅͷΠǥ½ÃÇÏ¿© NÂ÷¿øÀÇ µ¥ÀÌÅÍ °ø°£(space)¿¡ ³ªÅ¸³¾ ¶§, À¯»çÇÑ Æ¯¼ºÀ» °®´Â ·¹ÄÚµåµéÀº
¼·Î ±ÙÁ¢ÇÏ¿© À§Ä¡ÇÑ´Ù´Â °¡Á¤¿¡ ±Ù°ÅÇϰí ÀÖ´Ù. ¿©±â¿¡¼ ¿µ¹®ÀÚ 'K'´Â K°³ÀÇ ±ºÁýÀ»
ÀǹÌÇÑ´Ù.
´ÙÀ½ÀÇ »ç·Ê´Â K-Æò±Õ±ºÁýÈ ±â¹ýÀ» 2Â÷¿ø °ø°£¿¡¼ Àû¿ëÇÏ´Â
¿¹(ÀÚ·á¿ø : Data Mining Techniques for Marketing, Sales, and Customer Support
by M. Berry and G. Linoff, John Wiley & Sons, 1997)·Î¼, (¿ù¼öÀÔ, ¿¬·É)À¸·Î
±¸¼ºµÈ 20°³ÀÇ ·¹ÄÚµåµéÀ» 3Á¾·ù(K=3)ÀÇ ±ºÁý(ºÎ·ù)À¸·Î ºÐ·ùÇÏ´Â ÀÛ¾÷À» ´Ü°èº°·Î
¼³¸íÇϰíÀÚ ÇÑ´Ù.
ù ´Ü°è´Â ±×¸² 7°ú °°ÀÌ 20°³ÀÇ ·¹ÄÚµåµé
Áß¿¡¼ 3°³ÀÇ ·¹Äڵ带 ÀÓÀÇ·Î ¼±ÅÃÇÏ¿© °¢ ±ºÁýÀÇ Á߽ɰªÀ¸·Î ÁöÁ¤ÇÑ ÈÄ, ³ª¸ÓÁö
·¹ÄÚµåµéÀÌ ¼Ò¼ÓµÉ ±ºÁýÀ» °áÁ¤ÇÏ°í ±ºÁý°£ÀÇ °æ°è¼±À» ±ß´Â´Ù.
±×¸² 7 ±ºÁýº° Ãʱâ Á߽ɰª°ú °æ°è¼±
´Ü, ¼Ò¼Ó ±ºÁýÀÇ °áÁ¤ ±âÁØÀº °¢ ·¹ÄÚµå¿Í 3°³ Á߽ɰª°úÀÇ Á÷¼± °Å¸® Áß¿¡¼ °¡Àå ªÀº Á߽ɰªÀ¸·Î ÇÑ´Ù. ¿¹¸¦ µé¾î ù ¹øÂ° ±ºÁýÀÇ Á߽ɰªÀÌ (80, 25), µÎ ¹øÂ° ±ºÁýÀÇ Á߽ɰªÀÌ (100, 40), ¼¼ ¹øÂ°°¡ (125, 30)À̰í, ù° ·¹ÄÚµåÀÇ °ªÀÌ (90, 45)À̶ó¸é ÀÌ ·¹ÄÚµå¿Í ù ¹øÂ° ±ºÁýÀÇ Á߽ɰª°úÀÇ Á÷¼±°Å¸®´Â ´ÙÀ½°ú °°ÀÌ °è»êµÈ´Ù.
¸¶Âù°¡Áö ¹æ¹ýÀ¸·Î µÎ ¹øÂ°,
¼¼ ¹øÂ° ±ºÁýÀÇ Á߽ɰª°úÀÇ Á÷¼±°Å¸®¸¦ °è»êÇÏ¸é °¢°¢ 11.2¿Í 38.1ÀÌ µÈ´Ù. µû¶ó¼
ù° ·¹ÄÚµå´Â ÀÏ´Ü µÎ ¹øÂ° ±ºÁýÀ¸·Î ºÐ·ùµÈ´Ù. ¶ÇÇÑ µÎ ±ºÁý°£ÀÇ °æ°è¼±Àº µÎ Á߽ɰª°ú
°°Àº °Å¸®¿¡ À§Ä¡ÇÑ ÁÂÇ¥µéÀÇ ÁýÇÕ, Áï Á÷¼±ÀÌ µÈ´Ù. ±×¸²¿¡¼´Â ù ¹øÂ°, µÎ ¹øÂ°,
¼¼ ¹øÂ° ±ºÁý¿¡ ¼ÓÇÑ ·¹ÄÚµåµéÀ» °¢°¢ »ï°¢Çü, ¿ø, »ç°¢ÇüÀ¸·Î Ç¥½ÃÇϰí ÀÖ´Ù.
´ÙÀ½ ´Ü°è·Î´Â °¢ ±ºÁý¿¡ ¼ÓÇÑ ·¹ÄÚµåµéÀÇ Á߽ɰªÀ» ÀçÃøÁ¤ÇÑ´Ù. Áï
ù ¹øÂ° ±ºÁýÀÇ »õ·Î¿î Á߽ɰªÀº ±ºÁý¿¡ ¼ÓÇÑ ·¹ÄÚµåµéÀÇ ¿ù¼öÀÔ Æò±Õ°ª°ú ¿¬·É Æò±Õ°ªÀÌ
µÈ´Ù. Á߽ɰªÀÌ ±¸ÇØÁö¸é ù ´Ü°è¿¡¼¿Í ¸¶Âù°¡Áö·Î °¢ ·¹Äڵ忡 ´ëÇØ ±ºÁýÀÇ Á߽ɰª°ú
Á÷¼± °Å¸®¸¦ ÃøÁ¤ÇÏ¿© °¡Àå ±ÙÁ¢ÇÑ ±ºÁý¿¡ Æ÷ÇÔ½ÃŲ ÈÄ, ±ºÁý°£ÀÇ °æ°è¼±À» Ç¥½ÃÇÑ´Ù.
±×¸² 8Àº °ú°ÅÀÇ Á߽ɰªµéÀÌ »õ·Î¿î Á߽ɰª(½ÊÀÚÇüÀ¸·Î Ç¥½ÃµÈ °÷)À¸·Î À̵¿ÇÏ´Â
¸ð½À°ú ±ºÁýº° °æ°è¼±, ±×¸®°í °¢ ±ºÁý¿¡ ¼ÓÇÏ´Â ·¹ÄÚµåµéÀ» º¸¿©ÁÖ°í ÀÖ´Ù. ƯÈ÷
ù ¹øÂ° ±ºÁý¿¡ ¼ÓÇÑ ·¹ÄÚµå(»ï°¢ÇüÀ¸·Î Ç¥½Ã) Áß Çϳª´Â Á߽ɰªÀÌ À̵¿ÇÔ¿¡ µû¶ó
»õ·Ó°Ô ÀÌ ±ºÁý¿¡ Æ÷ÇÔµÈ °ÍÀ» ¾Ë ¼ö ÀÖ´Ù. »õ·Î¿î ±ºÁýÀÌ Çü¼ºµÇ¸é ÀÌÀü ´Ü°èÀÇ
°úÁ¤À» Á߽ɰªÀÇ À̵¿ÀÌ ¹ÌºñÇÒ ¶§±îÁö, Áï °æ°è¼±ÀÇ º¯È°¡ °ÅÀÇ ¾øÀ» ¶§±îÁö ¹Ýº¹ÀûÀ¸·Î
½ÇÇàÇÑ´Ù.
À§ÀÇ »ç·Ê¿¡¼ º¸µíÀÌ K-Æò±Õ±ºÁýÈ ±â¹ýÀº ÀÌÇØÇϱⰡ
½±°í, ¿¬·ÉÀ̳ª ¿ù¼öÀÔ µî°ú °°ÀÌ ¸ðµç ¼Ó¼ºÀÌ Å©±â¸¦ °¡¸§ÇÒ ¼ö ÀÖ´Â ¿¬¼ÓÇü °ªÀ»
ÃëÇÒ °æ¿ì¿¡ Àû¿ëÇϱ⠽±´Ù. ±×·¯³ª µ¥ÀÌÅÍ¿¡ ¼ºº°À̳ª Çз µî°ú °°Àº ¸í¸ñÇü °ªµéÀÌ
Æ÷ÇԵǾî ÀÖÀ¸¸é ·¹Äڵ尣ÀÇ Á÷¼±°Å¸®¸¦ ÃøÁ¤ÇÏ±â ¾î·Æ´Ù´Â ¹®Á¦°¡ ÀÖ´Ù. ¶ÇÇÑ °Å¸®
ÃøÁ¤½Ã NÂ÷¿ø °ø°£¿¡¼ ¸ðµç ¼Ó¼ºÀÇ °øÇåµµ¸¦ °°´Ù°í ÀÎÁ¤ÇÑ´Ù. ¿¹¸¦ µé¾î ÇÑ ·¹ÄÚµåÀÇ
(¿ù¼öÀÔ, ¿¬·É)ÀÇ °ªÀÌ (100, 30)ÀÌ°í ´Ù¸¥ ·¹ÄÚµåÀÇ °ªÀÌ (90, 40)À̸é, ÀÌµé µÎ
·¹ÄÚµå¿Í ±ºÁýÀÇ Á߽ɰª (80, 20)°úÀÇ Á÷¼±°Å¸®´Â °°±â ¶§¹®¿¡ µ¿ÀÏÇÑ ±ºÁý¿¡ ¼ÓÇϰÔ
µÈ´Ù. ±×·¯³ª ½ÇÁ¦·Î´Â ¾î´À ÇÑ ¼Ó¼ºÀÇ Á߿䵵°¡ ´Ù¸¥ ¼Ó¼ºº¸´Ù ³ôÀº °æ¿ì°¡ ¸¹À¸¸ç,
ÀÌ·¯ÇÑ Á¡À» ¹Ý¿µÇÏ¿© ±ºÁýÀ» ¸¸µé¾î¾ß Àǹ̰¡ ÀÖ´Ù. ÀÌ¿Í °°Àº ¹®Á¦Á¡µéÀ» °¨¾ÈÇÏ¿©
°Å¸® °è»ê¿¡ ÀÖ¾î ¸í¸ñÇü µ¥ÀÌÅÍÀÇ °ªÀÌ ¼·Î ´Ù¸¦ °æ¿ì 0À¸·Î °£ÁÖÇÑ´ÙµçÁö, ¼Ó¼ºº°·Î
¼·Î ´Ù¸¥ °¡ÁßÄ¡¸¦ ºÎ¿©ÇÏ´Â ¹æ½Ä µî »õ·Ó°Ô º¯ÇüµÈ K-Æò±Õ±ºÁýÈ ±â¹ýµéÀÌ µîÀåÇϰí
ÀÖ´Ù.
±×¸² 8 ±ºÁýº° Á߽ɰª ¹× °æ°è¼±ÀÇ À̵¿