Journal Search Engine

View PDF Download PDF Export Citation Korean Bibliography PMC Previewer
The Journal of The Korea Institute of Intelligent Transport Systems Vol.11 No.1 pp.86-91
DOI : https://doi.org/10.12815/kits.2012.11.1.86

Performance Comparison of Noise Reduction Algorithms for Enhancing Voice Quality based on Telematics

Hyoung-Gook Kim*, Hong-Jae Choi**
*Lead author: Associate Professor, Department of Radio Engineering, Kwangwoon University
**Co-author and Corresponding Author: Bachelor of Radio Science and Engineering, Kwangwoon University
20111108 │ 20120118 │ 20120204

Abstract


To provide high voice quality of real-time voice communication based on telematics exposed to various noise environments, the noise reduction algorithm with low computing load is required to effectively remove the noise. In this paper, we propose a noise reduction algorithm based on Mel-Filter and illustrate the proposed algorithm comparing with conventional noise reduction algorithms. As a experimental result that evaluates the performance of the noise reduction algorithms under the car and babble noise environments, the proposed noise reduction algorithm has the lower computing load with the similar PESQ score compared to the conventional noise reduction algorithms. It proves that the proposed noise reduction algorithm can efficiently remove the noise in mobile telematics.



텔레메틱스 기반의 통화음질향상을 위한 잡음제거 알고리즘의 성능비교

김 형 국*, 최 홍 재**
*주저자 : 광운대학교 전파공학과 부교수
**공저자 및 교신저자 : 광운대학교 전파공학과 학사과정

초록


다양한 잡음환경에 노출되는 텔레메틱스 기반의 음성 통화 시스템에서 고품질의 통화 품질을 제공하기 위해서는 저 연산량을 가지며 효과적으로 배경 잡음을 제거할 수 있는 잡음제거 알고리즘이 요구된다. 본 논문에서는 Mel-Filter 기반 의 잡음제거 알고리즘을 제안하며, 제안된 알고리즘을 기존 잡음제거 알고리즘들과 비교하여 설명한다. 자동차 잡음과 배블 잡음 환경에서 잡음제거 알고리즘의 성능 측정 결과, 제안된 Mel-Filter 기반의 잡음제거 알고리즘이 기존 잡음제거 알고리즘들에 비해 비슷한 PESQ 성능에 적은 연산량을 가지는 장점을 가지고 있으며, 제안된 잡음제거 알고리즘이 텔레 메틱스 단말기에서 효과적으로 잡음을 제거할 수 있음을 입증하였다.



    Ⅰ. 서 론

    최근 무선 네트워크의 발달로 차량에서 무선 IP (Internet Protocol) 네트워크를 통한 음성통화가 개발 및 보급되고 있다. 일반적으로 차량에서 운전자가 통화를 할 경우에는 차량 내부와 외부에서 발생하 는 차량 주변 잡음 등으로 인해 음성 통화의 품질 이 저하된다. 이와 같이 자동차내에서 음성통화시 발생하는 통화 품질 저하를 막기 위해 다양한 잡음 제거 알고리즘[1-3]이 연구되어져왔다.

    대부분의 잡음제거 알고리즘은 잡음추정과 음성 추정의 2가지로 구성된다. 잡음추정에서는 회귀적 평균 최소값을 기반으로 음성구간을 검출(Voice Activity Detection)하여 잡음 성분을 추정하는 MCRA (Minima-Controlled Recursive Averaging) [1]방식이 효 과적으로 사용되어 오고 있다. 이와 함께 추정된 잡 음을 기반으로 음성추정에서는 Gaussian확률모델기 반에 Log-Scale을 적용한 Optimally modified Log Spectral Amplitude (OM-LSA) 음성추정 방식 [1]이 적 용되어 오다가, 최근에는 Gaussian 확률 모델보다 다 이나믹한 음성 성분의 특성을 반영한 Generalized Gamma분포모델 기반의 OM-LSA 음성추정 방식 [4] 이 제안되었다. 이러한 알고리즘들[1-4]은 확률적 모 델기반으로 높은 연산량을 지니고 있다. 하지만 제한 적인 하드웨어 성능을 가지는 모바일이나 자동차 환 경내의 텔레메틱스 단말기에서는 높은 연산량에 따라 프로세싱 지연이 증가하고 이로 인해 음성이 지연되어 들리는 통화품질저하의 문제점을 지닌 다. 이러한 문제점을 해결하기 위해서 본 논문에서 는 MCRA의 Gaussian 확률기반 음성 추정[5]에 Mel-Filter를 적용하여, 기존 확률적 모델의 높은 연 산량을 줄이고, 수정된 a priori SNR추정을 통해 배경 잡음을 제거하는 방식을 제안한다. 제안하는 방식은 Mel-Filter를 적용하여 연산량을 줄임으로써 기존의 방식이 지니는 무선 IP망 상태에 따른 음성통화품질 저하를 방지할 수 있다. 제안하는 알고리즘은 기존 의 Gaussian 확률모델기반의 OM-LSA 음성추정, Generalized Gamma분포모델 기반의 OM-LSA 음성추 정 방식과 잡음제거 성능을 비교하고자 한다.

    본 논문의 구성은 다음과 같다. II장에서는 성능 비교하는 잡음제거 알고리즘들을 설명하고, III장에 서는 설명한 잡음제거 알고리즘의 성능을 비교한 다. 마지막으로 IV장에서 결론을 맺는다.

    Ⅱ. 텔레메틱스 기반 잡음제거 알고리즘

    텔레메틱스 기반 잡음제거 알고리즘은 <그림 1> 과 같이 잡음추정과 음성추정으로 구성된다.

    음성신호 x(n)에 잡음신호 d(n)이 더해진 잡음음성 신호 y(n)는 윈도우 함수와 STFT (Short-Time Fourier Transform)를 통해 주파수 축으로 변환한다.

    Y ( k , l ) = n = 0 N 1 y ( n + l M ) h ( n ) e j ( 2 π N ) n k
    (1)

    여기서 k는 frequency bin, l은 frame index, h(n)는 윈도우 함수, M은 한 프레임이 가지는 샘플갯수를 나타낸다.

    주파수 축으로 변환된 잡음음성스펙트럼은 파워 스펙트럼 | Y ( k , l ) | 2 로 변환하여 MCRA 잡음추정에 입력하여 잡음 스펙트럼 λ d ^ ( k , l ) 을 추정한다. 추정된 잡음스펙트럼 λ d ^ ( k , l ) 과 파워스펙트럼 | Y ( k , l ) | 2 을 이 용하여 잡음제거 이득 G(k,l)을 계산한다. 계산된 잡 음제거이득 G(k,l)는 잡음음성스펙트럼 Y(k,l)과 곱해 져 잡음이 제거된 음성스펙트럼 X ^ ( k , l ) 를 획득한다.

    X ^ ( k , l ) = Y ( k , l ) G ( k , l )
    (2)

    잡음이 제거된 음성 스펙트럼은 inverse STFT을 통해 시간축 음성 신호로 변환하고, 시간축에서 나 타날 수 있는 불연속점을 제거하기 위해 Synthesis Window와 Overlap and Add를 수행하여 최종적으로 향상된 음성 신호 x ^ ( n ) 을 획득한다.

    음성추정방식들의 차이에 의한 잡음제거 알고리 즘 성능 비교를 위해, 본 논문에서는 MCRA 방식을 통해 잡음스펙트럼을 추정한다.

    1. MCRA 잡음추정

    입력된 잡음음성스펙트럼은 다이나믹한 음성특 성을 가지기 때문에 잡음과 유사한 신호를 만들기 위해 식 (3)과 식 (4)을 이용하여 스무딩한다.

    S f ( k , l ) = i = w w b ( i ) | Y | 2 ( k , l )
    (3)

    S f ( k , l ) = α S ( k , l 1 ) + ( 1 α ) S f ( k , l )
    (4)

    여기서, Sf(k,l) 는 주파수축에서 평균화된 입력 잡음 음성스펙트럼, b는 2w+1의 길이를 가지는 평균화 함수이다. α는 스무딩 파라미터를 나타낸다.

    스무딩을 수행한 후, 현재잡음환경의 잡음 최소 성분 Smin(k,l)을 구해진 평준화된 입력 잡음 음성스 펙트럼의 최소값을 프레임 수 C(>l + 1) 이내에서 비 교함으로써 식 (5)와 같이 구한다.

    S min ( k , l ) = min c = 0.. C { S min ( k , l c ) , S ( k , l ) }
    (5)

    구한 최소잡음 성분 Smin(k,l)과 평균스펙트럼 S(k,l) 을 이용하여 음성존재구간 VAD (Voice Activity Detection)을 검출한다.

    I ( k , l ) = { 1 if S ( k , l ) S min ( k , l ) > Ψ 0 o t h e r w i s e
    (6)

    여기서 Ψ 는 VAD 문턱값이다.

    구해진 VAD를 이용하여 스무딩 변수 αd(k,l)를 구한다.

    p ( k , l ) = α p p ( k , l 1 ) + ( 1 α p ) I ( k , l )
    (7)

    α d ( k , l ) = α d + ( 1 α d ) p ( k , l )
    (8)

    여기서, αp 는 스무딩 파라미터이며, p(k,l)는 조건부 음성 존재확률을 나타낸다. 스무딩 파라미터 αd 를 이용하 여 최종적으로 잡음스펙트럼 λ d ^ ( k , l ) 을 추정한다.

    λ d ^ ( k , l ) = α d ( k , l ) λ d ^ ( k , l 1 ) + ( 1 α d ( k , l ) ) | Y | 2 ( k , l )
    (9)

    2. 잡음제거이득 추정

    본 논문에서 비교하는 잡음제거 알고리즘은 잡 음제거이득 획득 방법에 따라 Gaussian 분포기반의 OM-LSA 음성추정[1], Generalized Gamma 분포기반 OM-LSA 음성추정[4], Mel-filter를 적용한 Gaussian 분포기반의 OM-LSA 음성추정[1]으로 구분된다.

    1) Gaussian분포기반의 OM-LSA 음성추정방식: OM-LSA

    OM-LSA은 잡음추정으로부터 입력받은 잡음스 펙트럼 λ d ^ ( k , l ) 을 이용하여 priori SNR ξ ^ ( k , l ) 와 posteriori SNR γ ( k , l ) 을 계산한다.

    γ ( k , l ) = | Y ( k , l ) | 2 λ d ^ ( k , l )
    (10)

    ξ ^ ( k , l ) = α ξ G H 1 2 ( k , l 1 ) γ ( k , l 1 ) + ( 1 α ξ ) max { γ ( k , l ) 1 , 0 }
    (11)

    여기서 αξ는 스무딩 파라미터, G H 1 ( k , l 1 ) 은 a priori SNR을 계산하기 위해 사용되는 이전프레임의 잡음 제거이득을 의미한다.

    위와 같이 계산된 SNR을 이용하여 Gaussian 확률 모델기반의 잡음제거 이득 G H 1 ( k , l ) 을 식 (12)와 같이 획득한다.

    G H 1 ( k , l ) ξ ( k , l ) 1 + ξ ( k , l ) e x p ( 1 2 υ ( k , l ) e t t d t )
    (12)

    υ ( k , l ) γ ( k , l ) ξ ( k , l ) ξ ( k , l ) + 1
    (13)

    Gaussian 확률 모델기반의 잡음제거이득 G H 1 ( k , l ) 만을 사용하여 음성추정을 할 경우 출력음성신호에 서 musical tone이 남아있어 음질저하가 발생한다. 따라서 gain floor Gmin을 사용하여 musical tone을 제 거한 잡음제거이득 G(k,l)를 식 (14)와 같이 구한다.

    G ( k , l ) = ( G H 1 ( k , l ) ) p ( k , l ) ( G min ) 1 p ( k , l )
    (14)

    이 때, p(k,l)는 조건부 사전 음성존재부재확률로써 사전 음성부재확률 q(k,l)를 베이즈 법칙(Bayes Rule) 에 적용함으로써 구하며 식 (15)와 같이 나타낸다.

    p ( k , l ) = 1 + q ( k , l ) 1 q ( k , l ) ( ( 1 + ξ ( k , l ) e υ ( k , l ) ) 1
    (15)

    OM-LSA 음성추정 방식은 음성부재구간에서 존 재하는 musical tone과 자동차 환경내에서 발생하는 일정한 잡음성분 제거에 효과적이다.

    2) Geralized Gamma 분포기반의 OM-LSA 음성추 정방식: GOM-LSA

    GOM-LSA의 posteriori SNR과 priori SNR 계산방 식은 OM-LSA의 방식과 동일하지만 잡음제거이득 획득의 방식에서 차이를 나타낸다.

    GOM-LSA에서 사용되는 Generalized Gamma분포 기반의 음성추정기법은 식 (17)과 같이 나타내며, 이를 통해 조건부 확률 분포를 적용한 음성 스펙트 럼은 식 (16)과 같이 표현된다[4].

    X ^ = ( X r + j X i ) f X | Y ( X r , X i | Y ) d X r d X i
    (16)

    f A ( a ) = κ β υ Γ ( ν ) a κ υ 1 exp ( β a κ ) , β 0 , a 0 , ν 0 , κ 0
    (17)

    여기서, f X | Y ( X r , X i | Y ) 는 잡음음성신호 Y 가 존재할 때 실수부 Xr 와 허수부 Xi 를 가지는 음성신호 X ^ 의 조건부확률분포이며, 식 (17)에서 κ 는 스케일 파라 미터, a는 음성 신호의 스펙트럼 크기, νβ는 shape 파라미터를 나타낸다.

    음성스펙트럼 X ^ 는 잡음음성신호와 잡음제거이득 의 곱으로 구하며, 잡음제거이득은 베이즈 법칙 (Bayes Rule)을 통해 식 (18)로 유도된다[4].

    G G 1 = 1 r 0 π + π a e j ( Φ θ ) f Y | X ( x | a , Φ ) f A ( a ) d Φ d a 0 π + π f Y | X ( x | a , Φ ) f A ( a ) d Φ d a
    (18)

    식 (18)로부터 변수 κ, ν의 closed-form solution와 Bessel 함수를 추정함으로써 실질적으로 음성향상 에 generalized Gamma 분포 기반의 잡음제거이득을 식 (19)와 같이 구한다[4].

    G G 1 ( k , l ) = υ ζ ( k , l ) υ + ζ ( k , l ) M c ( υ + 1 ; 2 ; γ ( k , l ) ζ ( k , l ) υ + ζ ( k , l ) ) M c ( υ ; 1 ; γ ( k , l ) ζ ( k , l ) υ + ζ ( k , l ) )
    (19)

    여기서 Mc(a;b;c) 은 CHF(confluent hypergeometric function)을 나타낸다. 식 (20)으로 G G 1 ( k , l ) 에 gain floor Gmin 를 적용하여 잡음제거이득을 계산한다.

    G ( k , l ) = ( G G 1 ( k , l ) ) p ( k , l ) ( G min ) 1 p ( k , l )
    (20)

    GOM-LSA은 음성구간에서의 정확한 잡음제거 이득 추정과 음성-비음성 구간, 비음성-음성 구간에 서의 잔여 잡음을 제거에 효과적이다.

    3) Mel-filter 기반 LSA-MMSE 음성추정방식: M-LSA

    M-LSA는 차원이 감소된 Mel- Scale에서 잡음제 거 이득을 추정함으로써 연산량을 감소시킨다. M-LSA은 최초 입력된 잡음 스펙트럼 λ d ( k , l ) 과 파 워 스펙트럼 | Y ( k , l ) | 2 을 Mel-Scale로 변환한다.

    λ d ( m , l ) = k = 0 N 1 λ d ( k , l ) H ( k , m )
    (21)

    P ( m , l ) = k = 0 N 1 | Y ( k , l ) | 2 H ( k , m )
    (22)

    여기서 H(k,m)는 Mel-filter 함수 [6]이며, M은 Mel-Filter의 개수, N은 frequency bin의 개수로 실험 적으로 PESQ 수치가 가장 높고 약 6배의 연산량 감소를 기대할 수 있는 M=24, N=160을 사용했다.

    Mel-Scale로 변환된 λ d ( m , l ) P(m,l)를 이용하여 식 (23)과 같이 a posteriori SNR γ(m,l)을 구한다.

    γ ( m , l ) = P ( m , l ) λ d ^ ( m , l )
    (23)

    제안하는 M-LSA방식에서는 OM-LSA 음성추정 [1]의 a priori SNR ξ(m,l) 획득과는 달리 이전 프레 임에 대한 영향을 줄이기 위해 구해진 a posteriori SNR γ ( m , l ) , 이전 프레임 지수의 추정된 음성 λ x ( m , l 1 ) (0 ≤ ≤ 1)의 가중치 상수를 곱한 값 과 추정된 잡음 λ d ( m , l ) 을 이용하여 a priori SNR ξ ( m , l ) 을 식 (24)과 같이 구한다.

    ξ ( m , l ) = ( 1 α m ( m , l ) ) λ x ( m , l 1 ) λ d ( m , l ) + α m ( m , l ) max { γ ( m , l ) 1 , 0 }
    (24)

    여기서 = 0.4 , λ x ( m , l 1 ) 는 추정된 음성으로 식 (25), αm 는 스무딩 파라미터로 식 (26)과 같이 구한다.

    λ x ^ ( m , l 1 ) = G m 2 ( m , l 1 ) P ( m , l )
    (25)

    α m ( m , l ) = α G + ( 1 α G ) λ x ( m , l 1 ) λ x ( m , l 1 ) + λ d ( m , l )
    (26)

    여기서 αG 는 스무딩 파라미터를 나타낸다.

    위에서 계산된 변수를 적용하여 식(27)과 같이 Mel-Scale에서 잡음제거이득[1][4]을 추정한다.

    G ( m , l ) = ( G m ( m , l ) ) p ( m , l ) ( G min ) 1 p ( m , l )
    (27)

    G m ( m , l ) ξ ( m , l ) 1 + ξ ( m , l ) e x p ( 1 2 υ ( m , l ) e t t d t )
    (28)

    υ ( m , l ) = γ ( m , l ) ξ ( m , l ) ξ ( m , l ) + 1
    (29)

    식 (27)를 통하여 구해진 Mel-Scale에서의 잡음제 거 이득은 주파수 스펙트럼 복원 필터 H′(m,k) [6] 를 적용하여 주파수 스펙트럼으로 변환함으로써 주 파수축에서의 잡음제거 이득을 계산한다.

    G ( k , l ) = m = 0 M 1 G ( m , l ) H ( m , k )
    (30)

    M-LSA 음성추정은 주파수축의 성분을 Mel-Scale 로 변환하여 잡음제거 이득을 계산함으로써, 잡음 제거 이득 계산의 연산속도를 줄이는 장점이 있다.

    Ⅲ. 실험 및 결과고찰

    본 논문에서는 세 종류의 잡음제거 알고리즘의 성능 평가 및 비교를 위해 ETSI AURORA2 음성 DB를 이용하여 0dB~20dB까지 자동차와 배블잡음 환경에서의 PESQ 향상 결과를 비교하였다. 또한 텔 레메틱스 환경에서의 특수한 상황을 고려하여 연산 량을 측정하여 성능평가에 이용하였다. <그림 2>와 <그림 3>은 PESQ 향상 결과를 나타내며, <표 1>은 각 알고리즘별 연산량 측정 결과를 나타낸다.

    자동차 잡음에서는 <그림 2>의 결과와 같이 OM-LSA과 GOM-LSA는 측정된 PRSQ의 결과에서 근소한 차이만을 보이고 M-LSA은 0.1정도의 낮은 수치를 보인다. 그러나 배블 잡음에서는 <그림 3>의 결과와 같이 세 개의 알고리즘 모두 근소한 차이만 을 보이는 결과를 나타냈다. 반면에 연산속도에서는 M-LSA이 OM-LSA의 약 7배, GOM-LSA의 약 5배 빠른 속도를 보였다. 위 결과를 통해 M-LSA 방식이 OM-LSA와 GOM-LSA 방식보다 텔레메틱스 단말기 에 효과적으로 적용될 수 있음을 나타낸다.

    Ⅳ. 결 론

    본 논문은 텔레메틱스 환경기반 통화음질향상을 위한 3가지의 음성추정 방식에 따른 잡음제거 알고 리즘의 성능을 비교하였다. OM-LSA와 GOM-LSA 의 방식은 잡음제거 결과가 M-LSA에 비해 근소하 게 좋지만 연산 속도가 느린 단점이 있었다. 반면 M-LSA은 OM-LSA와 GOM-LSA보다 조금 낮은 PESQ 결과를 보였지만 빠른 연산 속도를 보임으로 써 향후 텔레메틱스 단말기에 효과적으로 적용될 수 있는 잡음제거 방식이라고 판단된다.

    Figure

    KITS-11-1-86_F1.gif

    Block diagram of noise reduction algorithm

    KITS-11-1-86_F2.gif

    PESQ result of car noise

    KITS-11-1-86_F3.gif

    PESQ result of babble noise

    Table

    Comparison of algorithms computation speed

    Reference

    1. I. Cohen and B. Berdugo, “Noise Estimation by Minima Controled Recursive Averaging for Roubust Speech Enhancement,” IEEE Signal Processing Letters, vol. 9. no. 1, JANUARY 2002.
    2. 김형국 “텔레메틱스 단말용 음성인식을 위한 음 성향상 알고리듬 및 칩 구현,” 한국ITS학회 논문지, 제7권, 제5호, pp.90~96, 2008. 10.
    3. 김형국, 신동, 이진호 “잡음에 강인한 음성인식 을 위한 generalized Gamma 분포기반과 spectral gain floor를 결합한 음성향상기법,” 한국ITS학회 논문지, 제3권, 제2호, pp.64~70, 2009. 6.
    4. R. C. Hendriks, J. S. Erkelens, J. Jensen and R. Heusdens, “Minimum mean-sqaure error amplitude estimators for speech enhancemnet under the generalized Gamma distribution,” Proc. Internati -onal Workshop on Acoustic Echo and Noise Control(IWAENC), vol. 10, pp.1-4, Sept. 2006.
    5. Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,” IEEE Trans. Acoustics, Speech, and Signal Proc., vol. 33, no. 2, pp.443~445, Dec. 1985.
    6. T. Ganchev, N. Fakotakis and G. Kokkinakis, “Comparative evaluation of various MFCC implem- entations on the speaker verification task,” in 10th International Conference on Speech and Computer (SPECOM 2005), vol. 1, pp.191~194, 2005.

    저자소개

    • 김 형 국 (Hyoung-Gook Kim)
    • 2007년 3월 ~ 현 재 : 광운대학교 전파공학과 부교수
    • 2005년 4월 ~ 2007년 2월 : 삼성종합기술원 수석연구원
    • 2002년 8월 ∼ 2005년 3월 : 독일 베를린 공과대학교 Adjunct Professor
    • 1999년 1월 ∼ 2002년 7월 : 독일 Cortologic AG 책임연구원

    • 최 홍 재 (Hong-Jae Choi)
    • 2005년 3월 ~ 현 재 : 광운대학교 전파공학과 학사과정

    Footnote