Çѱ¹¾î  English

À½¼ºÀÎ½Ä / À½¼ºÃ³¸® / ¿Àµð¿À½Åȣó¸®

  È¨   ¸â¹ö   °­ÀÇ   ¿¬±¸   °úÁ¦   ³í¹®   ¼¼¹Ì³ª   °¶·¯¸®   ´º½º

 

À½¼º½ÅÈ£ (Speech signals)

    ¼Ò¸®½ÅÈ£´Â ¼¼±â(intensity), ³ôÀÌ(pitch), À½»ö(timbre)À» °®´Â´Ù. ƯÈ÷ À½¼º½ÅÈ£´Â Àΰ£ÀÇ ¼º´ë¸¦ ÅëÇÏ¿© ³ª¿À´Â ¼Ò¸®½ÅÈ£·Î¼­ ´Ù¸¥ ÀϹÝÀûÀÎ À½Çâ½ÅÈ£¿Í´Â ´Þ¸® Áֱ⼺À» Áö´Ï¸ç Æ÷¸¸Æ® ±¸Á¶¸¦ °®´Â´Ù.

 

½ºÆåÆ®·Î±×·¥ (Spectrogram)

    À½¼º½Åȣó¸®ÀÇ ±âº»ÀÌ µÇ´Â ºÐ¼® ¹æ¹ýÀ¸·Î¼­ ¿¬¼ÓÀûÀ¸·Î ÁÖ¾îÁö´Â À½¼º½ÅÈ£¸¦ ÀÏÁ¤ÇÑ ±æÀÌÀÇ Á¶°¢À¸·Î ³ª´« ´ÙÀ½, ÀÌ Á¶°¢¿¡ ´ëÇÏ¿© Ǫ¸®¿¡ º¯È¯À» Àû¿ëÇÏ¿© ¼öÆòÃà¿¡´Â Á¶°¢ÀÇ ½Ã°£ Á¤º¸¸¦ ³ªÅ¸³»°í ¼öÁ÷Ãà¿¡´Â Á֯ļö ¼ººÐÀÇ Å©±â¸¦ µ¥½Ãº§ ´ÜÀ§·Î Ç¥ÇöÇÑ 2Â÷¿ø ±×¸²ÀÌ´Ù. ½ºÆåÆ®·Î±×·¥Àº À½¼º½ÅÈ£ÀÇ ³ôÀ̸¦ ³ªÅ¸³»´Â ÇÇÄ¡ Á֯ļö¿Í °¢ À½¼Òº°·Î Á֯ļö ¼ººÐÀÌ ÁýÁߵǾî ÀÖ´Â Æ÷¸¸Æ®(formant) Á֯ļö¸¦ ½±°Ô ¾Ë¾Æº¼ ¼ö ÀÖ´Â ÀåÁ¡ÀÌ À־, ¿À·¡ ÀüºÎÅÍ À½ÇâÀ½¼ºÇÐÀÚµéÀÇ ¿¬±¸¿¡ ±âº» µµ±¸°¡ µÇ°í ÀÖ´Ù. Ưº°È÷ ÇÇÄ¡ Á֯ļö ¹× Æ÷¸¸Æ® Á֯ļö´Â °¢°¢ F0 ¹× F1, F2, F3 µîÀÇ ±âÈ£·Î Ç¥½ÃÇÏ´Â °æ¿ì°¡ Á¾Á¾ ÀÖ´Ù.

 

À½¼º¹ß»ý (Speech production)

    À½¼º½ÅÈ£´Â ÇãÆÄ·ÎºÎÅÍ ºÐÃâµÇ´Â °ø±âÀÇ È帧ÀÌ ¼º´ëÀÇ Á¼Àº Æ´ »çÀ̸¦ ºüÁ®³ª¿À¸é¼­ ¸¸µé¾îÁø´Ù. À̶§ ¼º´ë¿¡¼­ ÀÔ¼ú±îÁöÀÇ ¼Ò¸®°¡ Åë°úÇÏ´Â Åë·Î¸¦ ¼ºµµ(vocal tract)¶ó°í Çϸç, ¼ºµµ ÀϺκÐÀÇ ³ÐÈû/Á¼Èû¿¡ µû¶ó¼­ À½¼ÒÀÇ Á¾·ù°¡ ´Þ¶óÁø´Ù. ¿¹¸¦ µé¸é "¾Æ" À½¼Ò´Â ÀÔÀ» Å©°Ô ¹ú¸± ¶§ ³ª´Â ¼Ò¸®À̸ç, "¿À"´Â ÀÔ¼úÀ» µÕ±Û°Ô ÇÒ ¶§ ³ª´Â ¼Ò¸®ÀÌ´Ù.

 

À½¼ºÀÎÁö (Speech perception)

    Àΰ£ÀÇ Ã»°¢±â°üÀÎ ´ÞÆØÀ̰ü¿¡¼­´Â ±Ù»çÀûÀ¸·Î Á֯ļö ºÐ¼®À» ÇÑ´Ù. Áï ´ÞÆØÀ̰üÀÇ ÀÔ±¸ ºÎºÐ¿¡¼­´Â ½ÅÈ£ÀÇ °íÁÖÆÄ ºÎºÐÀ» °¨ÁöÇϰí, ´ÞÆØÀ̰üÀÇ ±í¼÷ÇÑ ºÎºÐ¿¡¼­´Â ÀúÁÖÆÄ ½ÅÈ£¸¦ °¨ÁöÇÑ´Ù. ¶ÇÇÑ ÀúÁÖÆÄ ºÎºÐ¿¡¼­´Â ¾ÆÁÖ ÀÛÀº Á֯ļö Â÷À̸¦ °¨ÁöÇϸç, Á֯ļö°¡ Ä¿Áú¼ö·Ï ±¸º°ÇÒ ¼ö ÀÖ´Â Á֯ļö Â÷À̵µ Áõ°¡ÇÑ´Ù.

     

¼±Çü ¿¹Ãø ºÎȣȭ (Linear predictive coding; LPC)

    ¼±Çü¿¹ÃøºÎȣȭ´Â °ú°Å¿¡ ³ªÅ¸³­ À½¼º »ùÇ÷κÎÅÍ ÇöÀçÀÇ »ùÇðªÀ» ¿¹ÃøÇϴµ¥ ±× ¿ÀÂ÷¸¦ ÃÖ¼Ò·Î ÇÏ´Â FIR ÇÊÅÍÀÇ °è¼ö¸¦ ±¸ÇÏ´Â °ÍÀÌ´Ù. LPC °è¼ö a´Â ¹Ý»ç°è¼ö k·Î º¯È¯µÉ ¼ö ÀÖÀ¸¸ç, ¹Ý»ç°è¼ö´Â ¼ºµµ¸¦ ³ªÅ¸³»´Â ÆÄÀÌÇÁ ´Ü¸éÀûÀÇ ºÒ¿¬¼ÓÁ¡¿¡¼­ÀÇ ¹Ý»ç½ÅÈ£ÀÇ Å©±â¸¦ ÀǹÌÇÑ´Ù. ¹Ý»ç°è¼öÀÇ Â÷À̸¦ ÀÌ¿ëÇÏ¿© À½¼º½ÅÈ£¸¦ ºÐ·ùÇÒ ¼öµµ ÀÖ´Ù.

     

ÇÊÅ͹ðÅ© ºÐ¼® (Filter bank analysis)

    Àΰ£ û°¢±â°üÀÇ Æ¯¼ºÀ» ¹Ý¿µÇÏ¿©, À½¼º½ÅÈ£¸¦ Áß½ÉÁ֯ļö°¡ ´Ù¸¥ ¿©·¯°³ÀÇ ÇÊÅ͸¦ Åë°ú½ÃÄѼ­ ±× Ãâ·ÂÀ¸·Î À½¼ºÁ¤º¸¸¦ ó¸®ÇÏ´Â ºÐ¼® ¹æ¹ýÀÌ´Ù. °¢°¢ÀÇ ÇÊÅÍ´Â ÀúÁÖÆÄ ´ë¿ª¿¡¼­´Â ÃÎÃÎÈ÷ ¹èÄ¡µÇ°í °íÁÖÆÄ ´ë¿ª¿¡¼­´Â µë¼ºµë¼º ¹èÄ¡µÈ´Ù. ÇÊÅÍÀÇ ´ë¿ªÆøÀº °íÁÖÆÄ·Î °¥¼ö·Ï ³Ð¾îÁø´Ù.

     

ÄνºÆ®·³ ºÐ¼® (Cepstral analysis)

    Ǫ¸®¿¡ º¯È¯¿¡ ÀÇÇÏ¿© Á֯ļö ¿µ¿ªÀ¸·Î º¯È¯µÈ °è¼ö¿¡ ·Î±×¸¦ ÃëÇϰí À̸¦ Ǫ¸®¿¡ ¿ªº¯È¯ÇÏ¿© ¾ò´Â °è¼ö¸¦ ÄνºÆ®·³ °è¼ö¶ó°í ÇÑ´Ù. ÄνºÆ®·³ °è¼ö´Â ÇÇÄ¡Á֯ļö °ËÃâ¿¡ ¿ëÀÌÇϸç, Á֯ļö ½ºÆåÆ®·³ÀÇ ÆòȰȭ¿¡ ÀÌ¿ëµÇ±âµµ ÇÑ´Ù. ƯÈ÷ ÇÊÅ͹ðÅ© °è¼ö¸¦ ÄνºÆ®·³À¸·Î º¯È¯ÇÑ MFCC (mel-scaled cepstrum coefficients)´Â ÃÖ±Ù À½¼ºÀνıâÀÇ Æ¯Â¡À¸·Î °¡Á¤ ³Î¸® »ç¿ëµÈ´Ù. MFCC´Â À½¼ºÀÎ½Ä À̿ܿ¡µµ È­ÀÚÀνÄ, °¨Á¤ÀνÄ, ¾ð¾îÀÎ½Ä µî À½¼ºÁ¤º¸Ã³¸®ÀÇ ´Ù¹æ¸é¿¡¼­ ³Î¸® »ç¿ëµÇ°í ÀÖ´Ù.

 

°­ÀÎÇÑ À½¼ºÀÎ½Ä (Robust speech recognition)

    À½¼ºÀνıâ´Â ¹ß¼ºµÈ À½¼º½ÅÈ£ÀÇ È­ÀÚ, ä³Î, ÁÖÀ§ ȯ°æ¿¡ µû¶ó¼­ ÀνķüÀÌ Å©°Ô º¯È­ÇÑ´Ù. °­ÀÎÇÑ À½¼ºÀνÄÀº ÀÌ·¯ÇÑ À½¼º½ÅÈ£ÀÇ º¯ÀÌ¿¡µµ ºÒ±¸ÇÏ°í ³ôÀº ÀνķüÀ» °®µµ·Ï Çϱâ À§ÇÑ ¿¬±¸ÀÌ´Ù. Åë½Å´Ü¸»±â ¶Ç´Â Áö´É·Îº¿°úÀÇ ÀÎÅÍÆäÀ̽º¿¡¼­´Â ÁÖÀ§ ÀâÀ½¿¡ °­ÀÎÇÑ À½¼ºÀÎ½Ä ±â¼úÀÌ ÇʼöÀûÀÌ´Ù. À½¼ºÀνĿ¡ ´ëÇÑ ÀÚ¼¼ÇÑ ³»¿ëÀº À½¼ºÀÎ½Ä È¨ÆäÀÌÁö¸¦ º¸±â ¹Ù¶õ´Ù.

 

À½¿øÀ§Ä¡ ÃßÀû (Sound source localization)

    À½¼º½ÅÈ£·ÎºÎÅÍ »ç¿ëÀÚÀÇ À§Ä¡¸¦ ÆÄ¾ÇÇÏ´Â ±â¼ú·Î¼­ º¸Åë 2°³ ÀÌ»óÀÇ ¸¶ÀÌÅ©·Î À½¼º½ÅÈ£¸¦ ÀÔ·ÂÇÏ¿© À§Ä¡¸¦ ÃßÁ¤ÇÑ´Ù. »ç¶÷Àº 2°³ÀÇ ±Í¸¸À» °®°í ÀÖÁö¸¸ À½¿øÀÇ À§Ä¡¸¦ ¾Ë¾Æ³¾ ¼ö ÀÖ´Ù. Àΰ£ÀÇ ³ú´Â ¸Ó¸®Àü´ÞÇÔ¼ö¶ó´Â °ÍÀ» ÀÌ¿ëÇÏ¿© µÎ ±Í·Î µé¾î¿À´Â ½ÅÈ£¸¦ ó¸®ÇÏ¿© ¹æÇâÀ» °è»êÇÑ´Ù. 2°³ÀÇ ¸¶ÀÌÅ©¸¦ »ç¿ëÇÏ´Â °ÍÀº ¾Ë°í¸®µëÀÌ º¹ÀâÇÏ°í ´Ù¼öÀÇ ¸¶ÀÌÅ©¸¦ »ç¿ëÇÏ´Â °Í¿¡ ºñÇÏ¿© ¼º´ÉÀÌ ÁÁÁö ¾Ê´Ù. ÀÌ·ÐÀûÀ¸·Î 3°³ ÀÌ»óÀÇ ¸¶ÀÌÅ©¸¦ »ç¿ëÇϸé 3Â÷¿ø °ø°£¿¡¼­ÀÇ À½¿ø À§Ä¡¸¦ ÃßÁ¤ÇÒ ¼ö ÀÖ´Ù. À½¿ø ¹æÇâÀ» ã¾Æ³»±â À§ÇÏ¿© ÁÖ·Î »ç¿ëµÇ´Â Ư¡À¸·Î´Â µÎ ä³Î°£ÀÇ ½Ã°£Â÷ÀÌ(interaural time difference), ¼¼±âÂ÷ÀÌ(interaural intensity difference), À§»óÂ÷ÀÌ(interaural phase difference)°¡ ÀÌ¿ëµÈ´Ù.

 

À½¼ººÐ¸® (Speech separation)

    Àΰ£ÀÇ Ã»°¢±â°üÀº ¿©·¯ °¡Áö ¿Àµð¿À ½ÅÈ£°¡ È¥ÇÕµÇ¾î µé¿©µµ ¸ñÇ¥·Î ÇÏ´Â À½¿ø¿¡¼­ ¿À´Â ½ÅÈ£¸¸¿¡ ÁýÁßÇÒ ¼ö Àִµ¥ À̸¦ ĬÅ×ÀÏ ÆÄƼ È¿°ú¶ó°í ÇÑ´Ù. ÀÌ¿Í °°ÀÌ Àΰ£ÀÇ Ã»°¢ Ư¼ºÀ» ÀÀ¿ëÇÏ¿© 1°³ÀÇ ¸¶ÀÌÅ©·Î µé¾î¿À´Â ½ÅÈ£¿¡¼­µµ ¿øÇÏ´Â È­ÀÚÀÇ À½¼º½ÅÈ£¸¸À» ÃßÃâÇÏ´Â °ÍÀÌ Àü»ê û°¢ Àå¸é ºÐ¼®(computational auditory scene analysis)ÀÌ´Ù. ÃÖ±Ù¿¡´Â À½¼º½ÅÈ£¸¦ ¸ðµ¨¸µÇÏ¿© Åë°èÀûÀ¸·Î ´ÜÀÏä³Î ½ÅÈ£·ÎºÎÅÍ À½¼ºÀ» ºÐ¸®ÇÏ´Â ¿¬±¸µµ ÁøÇàµÇ°í ÀÖ´Ù.

    2°³ ÀÌ»óÀÇ ¸¶ÀÌÅ©¸¦ »ç¿ëÇÏ´Â °æ¿ì Àΰ£ÀÇ Ã»°¢ Ư¼ºÀ» Ȱ¿ëÇÏÁö ¾Ê°íµµ, ¼­·Î ´Ù¸¥ À½¿ø¿¡¼­ ¹ß»ýÇϴ ½ÅÈ£´Â ¼­·Î µ¶¸³À̶ó´Â »ç½ÇÀ» ÀÌ¿ëÇÏ¿© ½ÅÈ£¸¦ ºÐ¸®ÇÒ ¼ö ÀÖ´Ù. À̸¦ µ¶¸³¼ººÐºÐ¼®(independent component analysis)¶ó°í Çϴµ¥, ´Ùä³Î À½¼ººÐ¸®¿¡ ¸Å¿ì È¿°úÀûÀ̶ó°í ¾Ë·ÁÁ® ÀÖ´Ù. ¸¶ÀÌÅ© ¾î·¹À̸¦ »ç¿ëÇϴ °æ¿ì ·¹ÀÌ´Ù ½Åȣ󸮿¡¼­ÀÇ ÀüÆÄ¹æÇâ °ËÃâ ¾Ë°í¸®µëÀ» ÀÀ¿ëÇÑ ºöÆ÷¹Ö ¾Ë°í¸®µëÀ» ÀÌ¿ëÇÏ¿© À½¿øÀ» ºÐ¸®ÇÒ ¼öµµ ÀÖ´Ù.

 

´ë¾îÈÖ ¿¬¼ÓÀ½¼ºÀÎ½Ä (Large vocabulary continuous speech recognition)

    ¾à 10,000 ´Ü¾î ÀÌ»óÀÇ ¾îÈַΠ±¸¼ºµÈ ¿¬¼ÓÀ½¼ºÀνıâÀÇ ¼º´ÉÀ» Çâ»ó½Ã۱â À§ÇÏ¿© À½Çâ¸ðµ¨, ¾ð¾î¸ðµ¨À» °³¼±Çϰųª, Àνļӵµ¸¦ ºü¸£°Ô ÇÏ´Â ¿¬±¸¸¦ ÇÑ´Ù. ÀÀ¿ë ºÐ¾ß´Â ¹Þ¾Æ¾²±â ÇÁ·Î±×·¥, ¹æ¼Û´º½º Àü»ç, ÀÇ·áÁø´Ü °á°ú ±¸¼ú µîÀÌ´Ù.

 

°¨Á¤ÀÎ½Ä (Emotion recognition)

    À½¼º½ÅÈ£·ÎºÎÅÍ »ç¶÷ÀÇ °¨Á¤ »óÅÂ(±â»Ý, ½½ÇÄ, È­³² µî)¸¦ ÀÎÁöÇÏ´Â ±â¼ú·Î¼­, Áö´É·Îº¿ÀÇ Àΰ£ ģȭÀûÀÎ ÀÎÅÍÆäÀ̽º¿¡ ÀÀ¿ëµÈ´Ù.