MARKET - 판매기술목록

제목 실시간 타겟 음성 분리 방법 및 DNN을 이용한 잡음 환경에 강인한 음성인식 기술 등록일 2016.10.06 10:51
글쓴이 관리자 조회 1549

출원(등록)번호

10-2016-0023335

대표청구항

DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치에 있어서, 다수의 마이크로부터 입력되는 마이크 입력신호들을 각각 입력받아 STFT(Short-Time Fourier Transform) 처리하는 다수의 STFT; 상기 다수의 STFT 처리부가 출력하는 STFT 처리된 마이크 입력신호들을 입력받아 DCICA 처리를 이행하며, 타겟추정신호와 잡음추정신호를 생성하는 DCICA; 상기 STFT 처리된 마이크 입력신호들 중 어느 하나인 제1마이크 입력신호와, 상기 DCICA부가 출력하는 타겟추정신호와 잡음추정신호를 입력받아 LMPSC(logarithmic mel-frequency power spectral coefficient) 처리하여 스펙트럴 형태로 변환하여 출력하는 다수의 LMPSC 처리부; 상기 LMPSC 처리부가 출력하는 스펙트럴 형태로 변환되어 출력되는 제1마이크 입력신호와 타겟추정신호와 잡음추정신호를 입력받아 특징강화된 최종 타겟추정 신호를 생성하는 DNN 기반 FE(DNN-Based Feature Enhancement) 처리부; 및 상기 최종 타겟추정신호를 제공받아 음성인식을 수행하는 ASR(Automatic Speech Recognition) 처리부;로 구성됨을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치.

패밀리 해외특허현황

      특허명: Efficient online preprocessing using target speaker direction and independent  

                    component analysis for robust speech recognition

      출원국: 미국

      출원번호(출원일): 15/071,594 (2016.03.16.)

      출원인: 서강대학교 산학협력단

      발명자: 박형민, 김민욱

유사 선행기술 존재 여부 및 차이점

종래에는 훈련 환경과 실제 환경 사이의 부조화를 보상하기 위한 다양한 기술이 제안되었으나, 그러함에도 다양한 종류의 잡음이 존재하는 실제의 환경에서 높은 인식율을 얻을 수 없었다. 딥러닝(deep learning)은 상기한 문제를 해소하기 위한 방안으로 적용되기 시작하였으며, 이는 음성을 강화하거나 강인한 음성인식을 위한 전처리를 위해 적용되고 있다. 그러나 상기 DNN 기반 알고리즘은 딥 러닝 학습 환경과 적용 환경이 달라질 때 성능이 저하되는 문제가 있다. 이에 반해, DNN 기반 특징 향상 시에 DCICA에 의해 추정된 목적 음성 신호와 잡음 신호, 그리고 마이크 입력신호를 이용함으로써 딥러닝 학습 환경과 적용 환경 사이에 불일치가 존재하는 경우에도 목적 음성 신호의 특징을 향상시켜 음성인식 성능을 개선할 수 있다.

 

조사키워드

1. 딥신경망*패킷*손실

2. 음성 처리 * 잡음 환경

3. Deep Belief and voice signal * Network

4. Deep Belief and Speech Recognition and Vocabulary

DB 종류

www.kipris.or.kr

www.wips.co.kr

 

기존 대비 기술의 특장점

 

음성은 대부분의 사람들에게 가장 자연스러운 의사소통 수단이면서 특별한 훈련을 요구하지 않기 때문에 음성인식 기술은 인간과 기계 사이에서 가장 효율적인 인터페이스 수단의 핵심 기술이다. 그러나 실세계에서는 사용자의 음성 외에 각종 잡음이 존재하며, 이는 인식 성능의 심각한 저하를 야기한다. 그러므로 인식기가 잡음에 강인한 특성을 갖는 것은 아주 중요하다. 또한 음성인식 시스템의 상용화와 응용 범위가 확대되고 있다는 점을 고려했을 때 환경변이와 관계없이 높은 인식 성능을 보장하는 시스템의 개발은 반드시 요구 된다. 음성 인식 시스템의 인식 성능의 감쇄는 주로 학습 환경과 실제 환경과의 차이로부터 생기며 좀 더 자세히 설명하자면 학습 단계에서 고려하지 못한 음향 잡음에 의해 야기된다. 이를 해결하기 위해 데이터와 학습 음성 데이터 사이의 불일치를 보완하는 방법을 사용하여 강인한 음성인식을 도모한다.

먼저 음성인식 시스템의 잡음에 대한 강인성을 향상시키기 위해 암묵음원 분리 방법 중 하나인 독립성분분석(ICA) 알고리즘이 활발히 연구되고 있다. 그러나 기존 ICA는 복잡한 연산량, 다수의 출력 중 목적 음원 신호를 선택해야 하는 문제점, 그리고 마이크로폰 개수보다 많은 음원 분리가 어렵다는 문제점 등이 있다. 이를 극복하기 위해 DCICA(Direction-of-arrival-constrained ICA) 알고리즘이 개발되었는데, 이 기술은 관심 음원 방향을 알고 있을 때 ICA를 기반으로 적은 계산량으로도 목적 음원 신호 추출을 위한 파라미터를 빠르게 추정하여 효과적인 음성 인식 전처리를 수행한다. 기존 ICA 기반 음성 인식 전처리 시스템은, 마이크로폰 개수만큼의 출력 신호들을 추출하고, 이들 중 목적 음성 신호를 선택하게 된다. 이 경우, 목적 음성 신호 추정 에러로 인해 전체 성능이 하락하는 문제점이 있다. 많은 실세계 음성 인식 환경에 있어서 목적 음성의 방향을 미리 가정할 수 있거나 쉽게 추정할 수 있기 때문에, 이 목적 음성 방향에 대한 정보를 이용하여 마이크 쌍 별로 목적 음성 신호를 제거하고 잡음을 추정하기 위한 널포머(null-former)를 생성하고, 독립 성분 분석을 이용하여 목적 음원 신호 출력과 널포머를 이용한 더미 출력간의 의존성을 최소화시키기 위한 비용 함수를 이용하여 목적 음성 신호를 추정함으로써 입력 신호들로부터 잡음에 제거된 목적 음성 신호를 분리해낸다. 이러한 음성 분리 방법은, 타겟 음성 도달 방향에 대한 정보를 이용하여 입력 신호로부터 목적 음성 신호는 제거하고 잡음 신호만을 추출할 수 있는 널포머를 생성하고, 널포머를 ICA에 이용함으로써, 종래의 분리 방법들보다 목적 음성 신호를 적은 계산량으로도 안정적으로 얻을 수 있게 된다.

                  

한편, 다른 접근 방법으로 모델 기반 특징 향상(model-based featrue enhancement)를 통한 잡음 제거 방법이 있다. 이는 미리 학습된 음성 모델을 사전정보로 이용하여 사후확률분포를 베이시안 추정식(Bayesian interference)으로 유도하고 최소제곱평균 추정기(minimum mean square error; MMSE)를 적용하는 방법이다. 위의 방법은 가우시안 혼합 모델(Gaussian mixture model; GMM)과 은닉 마르코프 모델(hidden Markov model; HMM) 등 풍부한 음성의 사전정보를 이용할 수 있기 때문에 인식성능 개선을 위한 효율적인 향상이 가능하다. 이 방법을 DCICA와 결합하여 향상된 목적 음성 신호를 주입력으로 하고 널포머 출력에서 추정한 잡음으로 비정상적 잡음이나 음원의 개수가 마이크로폰의 개수보다 많은 경우에 적용하여 향상된 음성 특징을 효과적으로 추정하게 된다.

마지막으로, Deep neural network (DNN)을 적용하여 잡음에 의해 왜곡된 음성의 스펙트럼 특징으로부터 원래 음성의 특징을 추정하는 연구가 활발히 진행되고 있다. 그러나 DNN 학습을 위해 모든 잡음 환경을 고려할 수 없기 때문에, 학습에 사용한 입력 음성의 왜곡 환경과 실제 적용하는 환경이 일치하지 않는 보통의 경우에 성능이 하락되는 문제점이 있다. 이 때, DCICA와 모델 기반 특징 향상을 결합한 잡음제거방법을 전처리로 적용한 후, 그 결과 신호를 왜곡된 음성의 특징과 함께 DNN의 입력에 적용하고, 널포머 출력에서 추정한 잡음을 추가하여 실제 환경에 적용하면, 일차적으로 잡음 제거된 결과 신호의 잔여 잡음 성분이 효과적으로 제거되어 음성 인식 성능이 대폭 상승하는 것을 실험을 통해서 확인할 수 있었다.