한국어  English

음성인식 / 음성처리 / 오디오신호처리

     멤버   강의   연구   과제   논문   세미나   갤러리   뉴스

 

음성신호 (Speech signals)

    소리신호는 세기(intensity), 높이(pitch), 음색(timbre)을 갖는다. 특히 음성신호는 인간의 성대를 통하여 나오는 소리신호로서 다른 일반적인 음향신호와는 달리 주기성을 지니며 포만트 구조를 갖는다.

 

스펙트로그램 (Spectrogram)

    음성신호처리의 기본이 되는 분석 방법으로서 연속적으로 주어지는 음성신호를 일정한 길이의 조각으로 나눈 다음, 이 조각에 대하여 푸리에 변환을 적용하여 수평축에는 조각의 시간 정보를 나타내고 수직축에는 주파수 성분의 크기를 데시벨 단위로 표현한 2차원 그림이다. 스펙트로그램은 음성신호의 높이를 나타내는 피치 주파수와 각 음소별로 주파수 성분이 집중되어 있는 포만트(formant) 주파수를 쉽게 알아볼 수 있는 장점이 있어서, 오래 전부터 음향음성학자들의 연구에 기본 도구가 되고 있다. 특별히 피치 주파수 및 포만트 주파수는 각각 F0 및 F1, F2, F3 등의 기호로 표시하는 경우가 종종 있다.

 

음성발생 (Speech production)

    음성신호는 허파로부터 분출되는 공기의 흐름이 성대의 좁은 틈 사이를 빠져나오면서 만들어진다. 이때 성대에서 입술까지의 소리가 통과하는 통로를 성도(vocal tract)라고 하며, 성도 일부분의 넓힘/좁힘에 따라서 음소의 종류가 달라진다. 예를 들면 "아" 음소는 입을 크게 벌릴 때 나는 소리이며, "오"는 입술을 둥글게 할 때 나는 소리이다.

 

음성인지 (Speech perception)

    인간의 청각기관인 달팽이관에서는 근사적으로 주파수 분석을 한다. 즉 달팽이관의 입구 부분에서는 신호의 고주파 부분을 감지하고, 달팽이관의 깊숙한 부분에서는 저주파 신호를 감지한다. 또한 저주파 부분에서는 아주 작은 주파수 차이를 감지하며, 주파수가 커질수록 구별할 수 있는 주파수 차이도 증가한다.

     

선형 예측 부호화 (Linear predictive coding; LPC)

    선형예측부호화는 과거에 나타난 음성 샘플로부터 현재의 샘플값을 예측하는데 그 오차를 최소로 하는 FIR 필터의 계수를 구하는 것이다. LPC 계수 a는 반사계수 k로 변환될 수 있으며, 반사계수는 성도를 나타내는 파이프 단면적의 불연속점에서의 반사신호의 크기를 의미한다. 반사계수의 차이를 이용하여 음성신호를 분류할 수도 있다.

     

필터뱅크 분석 (Filter bank analysis)

    인간 청각기관의 특성을 반영하여, 음성신호를 중심주파수가 다른 여러개의 필터를 통과시켜서 그 출력으로 음성정보를 처리하는 분석 방법이다. 각각의 필터는 저주파 대역에서는 촘촘히 배치되고 고주파 대역에서는 듬성듬성 배치된다. 필터의 대역폭은 고주파로 갈수록 넓어진다.

     

켑스트럼 분석 (Cepstral analysis)

    푸리에 변환에 의하여 주파수 영역으로 변환된 계수에 로그를 취하고 이를 푸리에 역변환하여 얻는 계수를 켑스트럼 계수라고 한다. 켑스트럼 계수는 피치주파수 검출에 용이하며, 주파수 스펙트럼의 평활화에 이용되기도 한다. 특히 필터뱅크 계수를 켑스트럼으로 변환한 MFCC (mel-scaled cepstrum coefficients)는 최근 음성인식기의 특징으로 가정 널리 사용된다. MFCC는 음성인식 이외에도 화자인식, 감정인식, 언어인식 등 음성정보처리의 다방면에서 널리 사용되고 있다.

 

강인한 음성인식 (Robust speech recognition)

    음성인식기는 발성된 음성신호의 화자, 채널, 주위 환경에 따라서 인식률이 크게 변화한다. 강인한 음성인식은 이러한 음성신호의 변이에도 불구하고 높은 인식률을 갖도록 하기 위한 연구이다. 통신단말기 또는 지능로봇과의 인터페이스에서는 주위 잡음에 강인한 음성인식 기술이 필수적이다. 음성인식에 대한 자세한 내용은 음성인식 홈페이지를 보기 바란다.

 

음원위치 추적 (Sound source localization)

    음성신호로부터 사용자의 위치를 파악하는 기술로서 보통 2개 이상의 마이크로 음성신호를 입력하여 위치를 추정한다. 사람은 2개의 귀만을 갖고 있지만 음원의 위치를 알아낼 수 있다. 인간의 뇌는 머리전달함수라는 것을 이용하여 두 귀로 들어오는 신호를 처리하여 방향을 계산한다. 2개의 마이크를 사용하는 것은 알고리듬이 복잡하고 다수의 마이크를 사용하는 것에 비하여 성능이 좋지 않다. 이론적으로 3개 이상의 마이크를 사용하면 3차원 공간에서의 음원 위치를 추정할 수 있다. 음원 방향을 찾아내기 위하여 주로 사용되는 특징으로는 두 채널간의 시간차이(interaural time difference), 세기차이(interaural intensity difference), 위상차이(interaural phase difference)가 이용된다.

 

음성분리 (Speech separation)

    인간의 청각기관은 여러 가지 오디오 신호가 혼합되어 들여도 목표로 하는 음원에서 오는 신호만에 집중할 수 있는데 이를 칵테일 파티 효과라고 한다. 이와 같이 인간의 청각 특성을 응용하여 1개의 마이크로 들어오는 신호에서도 원하는 화자의 음성신호만을 추출하는 것이 전산 청각 장면 분석(computational auditory scene analysis)이다. 최근에는 음성신호를 모델링하여 통계적으로 단일채널 신호로부터 음성을 분리하는 연구도 진행되고 있다.

    2개 이상의 마이크를 사용하는 경우 인간의 청각 특성을 활용하지 않고도, 서로 다른 음원에서 발생하는 신호는 서로 독립이라는 사실을 이용하여 신호를 분리할 수 있다. 이를 독립성분분석(independent component analysis)라고 하는데, 다채널 음성분리에 매우 효과적이라고 알려져 있다. 마이크 어레이를 사용하는 경우 레이다 신호처리에서의 전파방향 검출 알고리듬을 응용한 빔포밍 알고리듬을 이용하여 음원을 분리할 수도 있다.

 

대어휘 연속음성인식 (Large vocabulary continuous speech recognition)

    약 10,000 단어 이상의 어휘로 구성된 연속음성인식기의 성능을 향상시키기 위하여 음향모델, 언어모델을 개선하거나, 인식속도를 빠르게 하는 연구를 한다. 응용 분야는 받아쓰기 프로그램, 방송뉴스 전사, 의료진단 결과 구술 등이다.

 

감정인식 (Emotion recognition)

    음성신호로부터 사람의 감정 상태(기쁨, 슬픔, 화남 등)를 인지하는 기술로서, 지능로봇의 인간 친화적인 인터페이스에 응용된다.