Text Mining
±â¾÷¿¡¼ »ý¼º, ÀúÀå, Àç»ç¿ëÇÏ´Â Á¤º¸ Áß 20% ¸¸ÀÌ È°¿ë¼ºÀÌ ³ôÀº Á¤Çü µ¥ÀÌÅÍ·Î ±¸¼ºµÇ¾î ÀÖ°í, ³ª¸ÓÁö 80% ´Â ¿öµåÇÁ·Î¼¼¼, e-mail, ÇÁ¸®Á¨Å×À̼Ç, ½ºÇÁ·¹µå½ÃÆ®, PDF ¿Í °°Àº º¹ÇÕ¹®¼¿Í ÀÎÅÍ³Ý ÆäÀÌÁö µîÀÇ ºñÁ¤Çü ÅØ½ºÆ® ÇüÅ·Π±¸¼ºµÇ¾î ÀÖ´Ù. Á¤Çüµ¥ÀÌÅÍÀÇ SQL °Ë»öÀ¸·ÎºÎÅÍ ½ÃÀÛÇÑ Á¤º¸°Ë»ö (Information Retrieval) Àº ºñÁ¤Çü Å×ÀÌÅ͸¦ À§ÇÑ °Ë»öÀ¸·Î ¹ßÀüÇÏ°Ô µÇ°í ´Ù¾çÇÑ °Ë»ö agent¸¦ ÀÌ¿ëÇÑ À¥ °Ë»öÀ¸·Î ¹ßÀüÇÏ°Ô µÈ´Ù. ±×·¯³ª °Ë»ö¿£ÁøµéÀÌ ³Ê¹«³ª ¸¹Àº Á¤º¸¸¦ °Ë»öÇØ Áֱ⠽ÃÀÛÇÏ¸é¼ °Ë»öÀÇ ¹®Á¦´Â ¿øÇÏÁö ¾Ê´Â Á¤º¸µé »çÀÌ¿¡¼ À¯¿ëÇÑ Á¤º¸¸¦ ã´Â °ÍÀ¸·Î º¯ÈÇÏ¿´´Ù. À̿Ͱ°Àº Á¤º¸°Ë»ö ȯ°æ¿¡¼ À¯¿ëÇÑ Á¤º¸¸¦ È¿°úÀûÀ¸·Î ã±âÀ§Çؼ ºñÁ¤Çü µ¥ÀÌÅÍÀÎ ¹®¼·ÎºÎÅÍ À¯¿ëÇÑ Á¤º¸¸¦ ÃßÃâÇÏ°í °¡°øÇÏ´Â ±â¼úÀÇ Çʿ伺ÀÌ ´ëµÎµÇ°Ô µÇ¾ú´Ù.
´ë·®ÀÇ Á¤º¸¸¦ È¿°úÀûÀ¸·Î ´Ù·ê ¼ö ÀÖ´Â ¹æ¹ý¿¡ ´ëÇÑ ¿¬±¸´Â ÀÌ¹Ì È°¹ßÈ÷ ÁøÇàµÇ°í ÀÖ´Ù. DB ¿¡ ÀúÀåµÈ ÀÚ·á¿Í °°ÀÌ Á¤ÇüÈµÈ µ¥ÀÌÅͷκÎÅÍ Á¤º¸¸¦ ÃßÃâ, °¡°øÇÏ´Â µ¥ÀÌŸ¸¶ÀÌ´× (Data Mining) Àº ÀÌ¹Ì ½Ç¿ë¼ºÀ» °®Ãß°í ¸¹Àº ºÐ¾ß¿¡¼ ³Î¸® Ȱ¿ëµÇ°í ÀÖ´Ù. ±×·¯³ª µðÁöÅÐ Á¤º¸ÀÇ ´ëºÎºÐÀº ºñÁ¤Çü µ¥ÀÌÅͷμ, Text Mining Àº ÀÌ·¯ÇÑ ºñ/¹ÝÁ¤Çü µ¥ÀÌÅÍ¿¡ ´ëÇÏ¿© ÀÚ¿¬¾îó¸® (Natural Language Processing) ±â¼ú°ú ¹®¼Ã³¸® ±â¼úÀ» Àû¿ëÇÏ¿© À¯¿ëÇÑ Á¤º¸¸¦ ÃßÃâ, °¡°øÇÏ´Â °ÍÀ» ¸ñÀûÀ¸·Î ÇÏ´Â ±â¼úÀÌ´Ù. ¹®¼¿ä¾à (summarization), Ư¼ºÃßÃâ (feature extraction) µîÀÌ text mining ÀÇ ÇÙ½É ¿¬±¸ºÐ¾ß¸ç ±× ÀÀ¿ë ºÐ¾ß´Â ¸Å¿ì ´Ù¾çÇÏ´Ù.
Data mining °üÁ¡¿¡¼ ¹®¼·ÎºÎÅÍ ±¸Á¶ÈµÈ Á¤º¸¸¦ ÃßÃâÇÏ¿© database È ½ÃŰ°Å³ª ±ÔÄ¢À» ã¾Æ³»´Â °ÍÀº °¡Àå ÀϹÝÀûÀÎ ÀÀ¿ëÀ̸ç, »ç¿ëÀÚ°¡ Web »ó¿¡¼ ¹®¼¸¦ ã´Â °ÍÀ» µµ¿ÍÁְųª »ç¿ëÀÚ profile ÀÇ »ý¼º ¹× ºÐ¼®, ¹®¼¿¡ ¾²ÀÎ ÀÚ¿¬¾ð¾î ½Äº°, ´ë·® DB¿¡¼ ¹®¼ÀÇ ºÐ·ù ¹× ±ºÁýÈ, ¹®¼ºÐ·ù (Text Categorization) Á¤º¸¸¦ ÀÌ¿ëÇÑ ¹®¼ ÀçÇØ¼®, ½Å¹®/³í¹®/º¸°í¼ ¿ä¾à, ¹®¼ ¹ø¿ª, ½Ã°è¿ (time series) Á¤º¸ÀÇ È¹µæÀ» ÅëÇÑ ½ÃÀå ¹× À§Çèµµ ºÐ¼®, ¹®¼ »öÀÎ, ¹®¼ ¿©°ú (filtering) ¹× Ãßõ (recommendation), ´ëÇ¥Àû Ű¿öµå³ª ÅäÇÈ (topic) ÀÇ ÃßÃâ, ÁúÀÇÀÀ´ä ½Ã½ºÅÛ (Question Answering System), ´ë±Ô¸ð ¹®¼¿¡¼ÀÇ Å½»ö µîÀÌ °¡Àå ´ëÇ¥ÀûÀÎ ÀÀ¿ëºÐ¾ß¶ó ÇÒ ¼ö ÀÖ´Ù.
term :
ÅØ½ºÆ®¸¶ÀÌ´× (Text Mining) ÀÚ¿¬¾îó¸® (Natural Language Processing) Á¤º¸°Ë»ö (Information Retrieval) ¹®¼ºÐ·ù (Text Categorization)
site :
paper :
ÅØ½ºÆ®¸¶ÀÌ´× ±â¹Ý °íÁ¤¹Ð °Ë»ö½Ã½ºÅÛ : À̰æÀÏ, ¼Çü±¹, ¾Èżº, Çѱ¹Á¤º¸Ã³¸®ÇÐȸ 11±Ç 2È£, 2004
A Preliminary Study on Clinical Decision Support System based on Classification Learning of Electronic Medical Records : ¾ç½Å±Ô, Çѱ¹µ¥ÀÌÅÍÁ¤º¸°úÇÐȸ 14±Ç 4È£, 2003
ÀÎÅÍ³Ý ´º½º ±â»ç¿¡ ´ëÇÑ ÀÚµ¿ºÐ·ù Á¤º¸½Ã½ºÅÛ¿¡ °üÇÑ ¿¬±¸ : ¼¿ë¹«, ¹é¿ë±Ô, Çѱ¹°æ¿µÁ¤º¸ÇÐȸ Ãß°èÇмú´ëȸ, 2003