|
|||
À½¼º½ÅÈ£ (Speech signals) ¼Ò¸®½ÅÈ£´Â ¼¼±â(intensity), ³ôÀÌ(pitch), À½»ö(timbre)À» °®´Â´Ù. ƯÈ÷ À½¼º½ÅÈ£´Â Àΰ£ÀÇ ¼º´ë¸¦ ÅëÇÏ¿© ³ª¿À´Â ¼Ò¸®½ÅÈ£·Î¼ ´Ù¸¥ ÀϹÝÀûÀÎ À½Çâ½ÅÈ£¿Í´Â ´Þ¸® Áֱ⼺À» Áö´Ï¸ç Æ÷¸¸Æ® ±¸Á¶¸¦ °®´Â´Ù.
½ºÆåÆ®·Î±×·¥ (Spectrogram) À½¼º½Åȣó¸®ÀÇ ±âº»ÀÌ µÇ´Â ºÐ¼® ¹æ¹ýÀ¸·Î¼ ¿¬¼ÓÀûÀ¸·Î ÁÖ¾îÁö´Â À½¼º½ÅÈ£¸¦ ÀÏÁ¤ÇÑ ±æÀÌÀÇ Á¶°¢À¸·Î ³ª´« ´ÙÀ½, ÀÌ Á¶°¢¿¡ ´ëÇÏ¿© Ǫ¸®¿¡ º¯È¯À» Àû¿ëÇÏ¿© ¼öÆòÃà¿¡´Â Á¶°¢ÀÇ ½Ã°£ Á¤º¸¸¦ ³ªÅ¸³»°í ¼öÁ÷Ãà¿¡´Â Á֯ļö ¼ººÐÀÇ Å©±â¸¦ µ¥½Ãº§ ´ÜÀ§·Î Ç¥ÇöÇÑ 2Â÷¿ø ±×¸²ÀÌ´Ù. ½ºÆåÆ®·Î±×·¥Àº À½¼º½ÅÈ£ÀÇ ³ôÀ̸¦ ³ªÅ¸³»´Â ÇÇÄ¡ Á֯ļö¿Í °¢ À½¼Òº°·Î Á֯ļö ¼ººÐÀÌ ÁýÁߵǾî ÀÖ´Â Æ÷¸¸Æ®(formant) Á֯ļö¸¦ ½±°Ô ¾Ë¾Æº¼ ¼ö ÀÖ´Â ÀåÁ¡ÀÌ ÀÖ¾î¼, ¿À·¡ ÀüºÎÅÍ À½ÇâÀ½¼ºÇÐÀÚµéÀÇ ¿¬±¸¿¡ ±âº» µµ±¸°¡ µÇ°í ÀÖ´Ù. Ưº°È÷ ÇÇÄ¡ Á֯ļö ¹× Æ÷¸¸Æ® Á֯ļö´Â °¢°¢ F0 ¹× F1, F2, F3 µîÀÇ ±âÈ£·Î Ç¥½ÃÇÏ´Â °æ¿ì°¡ Á¾Á¾ ÀÖ´Ù.
À½¼º¹ß»ý (Speech production) À½¼º½ÅÈ£´Â ÇãÆÄ·ÎºÎÅÍ ºÐÃâµÇ´Â °ø±âÀÇ È帧ÀÌ ¼º´ëÀÇ Á¼Àº Æ´ »çÀ̸¦ ºüÁ®³ª¿À¸é¼ ¸¸µé¾îÁø´Ù. À̶§ ¼º´ë¿¡¼ ÀÔ¼ú±îÁöÀÇ ¼Ò¸®°¡ Åë°úÇÏ´Â Åë·Î¸¦ ¼ºµµ(vocal tract)¶ó°í Çϸç, ¼ºµµ ÀϺκÐÀÇ ³ÐÈû/Á¼Èû¿¡ µû¶ó¼ À½¼ÒÀÇ Á¾·ù°¡ ´Þ¶óÁø´Ù. ¿¹¸¦ µé¸é "¾Æ" À½¼Ò´Â ÀÔÀ» Å©°Ô ¹ú¸± ¶§ ³ª´Â ¼Ò¸®À̸ç, "¿À"´Â ÀÔ¼úÀ» µÕ±Û°Ô ÇÒ ¶§ ³ª´Â ¼Ò¸®ÀÌ´Ù.
À½¼ºÀÎÁö (Speech perception) Àΰ£ÀÇ Ã»°¢±â°üÀÎ ´ÞÆØÀ̰ü¿¡¼´Â ±Ù»çÀûÀ¸·Î Á֯ļö ºÐ¼®À» ÇÑ´Ù. Áï ´ÞÆØÀ̰üÀÇ ÀÔ±¸ ºÎºÐ¿¡¼´Â ½ÅÈ£ÀÇ °íÁÖÆÄ ºÎºÐÀ» °¨ÁöÇϰí, ´ÞÆØÀ̰üÀÇ ±í¼÷ÇÑ ºÎºÐ¿¡¼´Â ÀúÁÖÆÄ ½ÅÈ£¸¦ °¨ÁöÇÑ´Ù. ¶ÇÇÑ ÀúÁÖÆÄ ºÎºÐ¿¡¼´Â ¾ÆÁÖ ÀÛÀº Á֯ļö Â÷À̸¦ °¨ÁöÇϸç, Á֯ļö°¡ Ä¿Áú¼ö·Ï ±¸º°ÇÒ ¼ö ÀÖ´Â Á֯ļö Â÷À̵µ Áõ°¡ÇÑ´Ù.
¼±Çü ¿¹Ãø ºÎÈ£È (Linear predictive coding; LPC) ¼±Çü¿¹ÃøºÎȣȴ °ú°Å¿¡ ³ªÅ¸³ À½¼º »ùÇ÷κÎÅÍ ÇöÀçÀÇ »ùÇðªÀ» ¿¹ÃøÇϴµ¥ ±× ¿ÀÂ÷¸¦ ÃÖ¼Ò·Î ÇÏ´Â FIR ÇÊÅÍÀÇ °è¼ö¸¦ ±¸ÇÏ´Â °ÍÀÌ´Ù. LPC °è¼ö a´Â ¹Ý»ç°è¼ö k·Î º¯È¯µÉ ¼ö ÀÖÀ¸¸ç, ¹Ý»ç°è¼ö´Â ¼ºµµ¸¦ ³ªÅ¸³»´Â ÆÄÀÌÇÁ ´Ü¸éÀûÀÇ ºÒ¿¬¼ÓÁ¡¿¡¼ÀÇ ¹Ý»ç½ÅÈ£ÀÇ Å©±â¸¦ ÀǹÌÇÑ´Ù. ¹Ý»ç°è¼öÀÇ Â÷À̸¦ ÀÌ¿ëÇÏ¿© À½¼º½ÅÈ£¸¦ ºÐ·ùÇÒ ¼öµµ ÀÖ´Ù.
ÇÊÅ͹ðÅ© ºÐ¼® (Filter bank analysis) Àΰ£ û°¢±â°üÀÇ Æ¯¼ºÀ» ¹Ý¿µÇÏ¿©, À½¼º½ÅÈ£¸¦ Áß½ÉÁ֯ļö°¡ ´Ù¸¥ ¿©·¯°³ÀÇ ÇÊÅ͸¦ Åë°ú½ÃÄѼ ±× Ãâ·ÂÀ¸·Î À½¼ºÁ¤º¸¸¦ ó¸®ÇÏ´Â ºÐ¼® ¹æ¹ýÀÌ´Ù. °¢°¢ÀÇ ÇÊÅÍ´Â ÀúÁÖÆÄ ´ë¿ª¿¡¼´Â ÃÎÃÎÈ÷ ¹èÄ¡µÇ°í °íÁÖÆÄ ´ë¿ª¿¡¼´Â µë¼ºµë¼º ¹èÄ¡µÈ´Ù. ÇÊÅÍÀÇ ´ë¿ªÆøÀº °íÁÖÆÄ·Î °¥¼ö·Ï ³Ð¾îÁø´Ù.
ÄνºÆ®·³ ºÐ¼® (Cepstral analysis) Ǫ¸®¿¡ º¯È¯¿¡ ÀÇÇÏ¿© Á֯ļö ¿µ¿ªÀ¸·Î º¯È¯µÈ °è¼ö¿¡ ·Î±×¸¦ ÃëÇϰí À̸¦ Ǫ¸®¿¡ ¿ªº¯È¯ÇÏ¿© ¾ò´Â °è¼ö¸¦ ÄνºÆ®·³ °è¼ö¶ó°í ÇÑ´Ù. ÄνºÆ®·³ °è¼ö´Â ÇÇÄ¡Á֯ļö °ËÃâ¿¡ ¿ëÀÌÇϸç, Á֯ļö ½ºÆåÆ®·³ÀÇ ÆòȰȿ¡ ÀÌ¿ëµÇ±âµµ ÇÑ´Ù. ƯÈ÷ ÇÊÅ͹ðÅ© °è¼ö¸¦ ÄνºÆ®·³À¸·Î º¯È¯ÇÑ MFCC (mel-scaled cepstrum coefficients)´Â ÃÖ±Ù À½¼ºÀνıâÀÇ Æ¯Â¡À¸·Î °¡Á¤ ³Î¸® »ç¿ëµÈ´Ù. MFCC´Â À½¼ºÀÎ½Ä À̿ܿ¡µµ ÈÀÚÀνÄ, °¨Á¤ÀνÄ, ¾ð¾îÀÎ½Ä µî À½¼ºÁ¤º¸Ã³¸®ÀÇ ´Ù¹æ¸é¿¡¼ ³Î¸® »ç¿ëµÇ°í ÀÖ´Ù. |
°ÀÎÇÑ À½¼ºÀÎ½Ä (Robust speech recognition) À½¼ºÀνıâ´Â ¹ß¼ºµÈ À½¼º½ÅÈ£ÀÇ ÈÀÚ, ä³Î, ÁÖÀ§ ȯ°æ¿¡ µû¶ó¼ ÀνķüÀÌ Å©°Ô º¯ÈÇÑ´Ù. °ÀÎÇÑ À½¼ºÀνÄÀº ÀÌ·¯ÇÑ À½¼º½ÅÈ£ÀÇ º¯ÀÌ¿¡µµ ºÒ±¸ÇÏ°í ³ôÀº ÀνķüÀ» °®µµ·Ï Çϱâ À§ÇÑ ¿¬±¸ÀÌ´Ù. Åë½Å´Ü¸»±â ¶Ç´Â Áö´É·Îº¿°úÀÇ ÀÎÅÍÆäÀ̽º¿¡¼´Â ÁÖÀ§ ÀâÀ½¿¡ °ÀÎÇÑ À½¼ºÀÎ½Ä ±â¼úÀÌ ÇʼöÀûÀÌ´Ù. À½¼ºÀνĿ¡ ´ëÇÑ ÀÚ¼¼ÇÑ ³»¿ëÀº À½¼ºÀÎ½Ä È¨ÆäÀÌÁö¸¦ º¸±â ¹Ù¶õ´Ù.
À½¿øÀ§Ä¡ ÃßÀû (Sound source localization) À½¼º½ÅÈ£·ÎºÎÅÍ »ç¿ëÀÚÀÇ À§Ä¡¸¦ ÆÄ¾ÇÇÏ´Â ±â¼ú·Î¼ º¸Åë 2°³ ÀÌ»óÀÇ ¸¶ÀÌÅ©·Î À½¼º½ÅÈ£¸¦ ÀÔ·ÂÇÏ¿© À§Ä¡¸¦ ÃßÁ¤ÇÑ´Ù. »ç¶÷Àº 2°³ÀÇ ±Í¸¸À» °®°í ÀÖÁö¸¸ À½¿øÀÇ À§Ä¡¸¦ ¾Ë¾Æ³¾ ¼ö ÀÖ´Ù. Àΰ£ÀÇ ³ú´Â ¸Ó¸®Àü´ÞÇÔ¼ö¶ó´Â °ÍÀ» ÀÌ¿ëÇÏ¿© µÎ ±Í·Î µé¾î¿À´Â ½ÅÈ£¸¦ ó¸®ÇÏ¿© ¹æÇâÀ» °è»êÇÑ´Ù. 2°³ÀÇ ¸¶ÀÌÅ©¸¦ »ç¿ëÇÏ´Â °ÍÀº ¾Ë°í¸®µëÀÌ º¹ÀâÇÏ°í ´Ù¼öÀÇ ¸¶ÀÌÅ©¸¦ »ç¿ëÇÏ´Â °Í¿¡ ºñÇÏ¿© ¼º´ÉÀÌ ÁÁÁö ¾Ê´Ù. ÀÌ·ÐÀûÀ¸·Î 3°³ ÀÌ»óÀÇ ¸¶ÀÌÅ©¸¦ »ç¿ëÇϸé 3Â÷¿ø °ø°£¿¡¼ÀÇ À½¿ø À§Ä¡¸¦ ÃßÁ¤ÇÒ ¼ö ÀÖ´Ù. À½¿ø ¹æÇâÀ» ã¾Æ³»±â À§ÇÏ¿© ÁÖ·Î »ç¿ëµÇ´Â Ư¡À¸·Î´Â µÎ ä³Î°£ÀÇ ½Ã°£Â÷ÀÌ(interaural time difference), ¼¼±âÂ÷ÀÌ(interaural intensity difference), À§»óÂ÷ÀÌ(interaural phase difference)°¡ ÀÌ¿ëµÈ´Ù.
À½¼ººÐ¸® (Speech separation) Àΰ£ÀÇ Ã»°¢±â°üÀº ¿©·¯ °¡Áö ¿Àµð¿À ½ÅÈ£°¡ È¥ÇÕµÇ¾î µé¿©µµ ¸ñÇ¥·Î ÇÏ´Â À½¿ø¿¡¼ ¿À´Â ½ÅÈ£¸¸¿¡ ÁýÁßÇÒ ¼ö Àִµ¥ À̸¦ ĬÅ×ÀÏ ÆÄƼ È¿°ú¶ó°í ÇÑ´Ù. ÀÌ¿Í °°ÀÌ Àΰ£ÀÇ Ã»°¢ Ư¼ºÀ» ÀÀ¿ëÇÏ¿© 1°³ÀÇ ¸¶ÀÌÅ©·Î µé¾î¿À´Â ½ÅÈ£¿¡¼µµ ¿øÇÏ´Â ÈÀÚÀÇ À½¼º½ÅÈ£¸¸À» ÃßÃâÇÏ´Â °ÍÀÌ Àü»ê û°¢ Àå¸é ºÐ¼®(computational auditory scene analysis)ÀÌ´Ù. ÃÖ±Ù¿¡´Â À½¼º½ÅÈ£¸¦ ¸ðµ¨¸µÇÏ¿© Åë°èÀûÀ¸·Î ´ÜÀÏä³Î ½ÅÈ£·ÎºÎÅÍ À½¼ºÀ» ºÐ¸®ÇÏ´Â ¿¬±¸µµ ÁøÇàµÇ°í ÀÖ´Ù. 2°³ ÀÌ»óÀÇ ¸¶ÀÌÅ©¸¦ »ç¿ëÇÏ´Â °æ¿ì Àΰ£ÀÇ Ã»°¢ Ư¼ºÀ» Ȱ¿ëÇÏÁö ¾Ê°íµµ, ¼·Î ´Ù¸¥ À½¿ø¿¡¼ ¹ß»ýÇÏ´Â ½ÅÈ£´Â ¼·Î µ¶¸³À̶ó´Â »ç½ÇÀ» ÀÌ¿ëÇÏ¿© ½ÅÈ£¸¦ ºÐ¸®ÇÒ ¼ö ÀÖ´Ù. À̸¦ µ¶¸³¼ººÐºÐ¼®(independent component analysis)¶ó°í Çϴµ¥, ´Ùä³Î À½¼ººÐ¸®¿¡ ¸Å¿ì È¿°úÀûÀ̶ó°í ¾Ë·ÁÁ® ÀÖ´Ù. ¸¶ÀÌÅ© ¾î·¹À̸¦ »ç¿ëÇÏ´Â °æ¿ì ·¹ÀÌ´Ù ½Åȣ󸮿¡¼ÀÇ ÀüÆÄ¹æÇâ °ËÃâ ¾Ë°í¸®µëÀ» ÀÀ¿ëÇÑ ºöÆ÷¹Ö ¾Ë°í¸®µëÀ» ÀÌ¿ëÇÏ¿© À½¿øÀ» ºÐ¸®ÇÒ ¼öµµ ÀÖ´Ù.
´ë¾îÈÖ ¿¬¼ÓÀ½¼ºÀÎ½Ä (Large vocabulary continuous speech recognition) ¾à 10,000 ´Ü¾î ÀÌ»óÀÇ ¾îÈÖ·Î ±¸¼ºµÈ ¿¬¼ÓÀ½¼ºÀνıâÀÇ ¼º´ÉÀ» Çâ»ó½Ã۱â À§ÇÏ¿© À½Çâ¸ðµ¨, ¾ð¾î¸ðµ¨À» °³¼±Çϰųª, Àνļӵµ¸¦ ºü¸£°Ô ÇÏ´Â ¿¬±¸¸¦ ÇÑ´Ù. ÀÀ¿ë ºÐ¾ß´Â ¹Þ¾Æ¾²±â ÇÁ·Î±×·¥, ¹æ¼Û´º½º Àü»ç, ÀÇ·áÁø´Ü °á°ú ±¸¼ú µîÀÌ´Ù.
°¨Á¤ÀÎ½Ä (Emotion recognition) À½¼º½ÅÈ£·ÎºÎÅÍ »ç¶÷ÀÇ °¨Á¤ »óÅÂ(±â»Ý, ½½ÇÄ, ȳ² µî)¸¦ ÀÎÁöÇÏ´Â ±â¼ú·Î¼, Áö´É·Îº¿ÀÇ Àΰ£ Ä£ÈÀûÀÎ ÀÎÅÍÆäÀ̽º¿¡ ÀÀ¿ëµÈ´Ù.
|
|
|