Saptayıcı-güdümlü konuşma arka planı gürültüsünün evrişimsel ağlar ile giderilmesi

Ayar, Cem

Saptayıcı-güdümlü konuşma arka planı gürültüsünün evrişimsel ağlar ile giderilmesi

Date

2022

Authors

Ayar, Cem

Abstract

Konuşma arka planı gürültüsü, çevrimiçi toplantıların ve canlı internet yayınlarının artan popülaritesi ile özelikle önem teşkil eden, yaygın bir sorundur. Son zamanlarda, Derin Sinir Ağlarının (DSA), geniş bir yelpazedeki arka plan gürültü çeşitlerinin bastırılmasında, birden fazla mikrofon gerektirmeden yüksek başarı elde ettiği gösterilmiştir. Ancak, ciddi kaynak tüketen böyle derin ağlar birçok gerçek hayat uygulamasının pahalı, külfetli veya bazen kullanışsız olmasına yol açar. Bu tez, problemi hafifletmek için, yüksek başarımlı bir DSA'yı, kayda değer gürültü olmayan zamanlarda devre dışı bırakan, yani saptayıcı-güdümlü bir gürültü giderme yaklaşımı ile, bir çözüm önermektedir. İlk olarak, Conv-TasNet olarak bilinen zaman alanında çalışan modern bir evrişimsel sinir ağı (ESA), verimlilik ve başarımına göre eniyilenmiştir. Sonra, ESA-temelli bir gürültülü konuşma saptayıcı tasarlanmış ve farklı büyüklük ve çözünürlük varyasyonları ile saptayıcı-güdümlü tasarı için değerlendirilmiştir. Optimum saptayıcının, optimum Conv-TasNet'in hesaplama yükünün sadece %2'sine sahip olduğu ve çok düşük gürültülü konuşma ıskalama oranı ile sadece ihmal edilebilir bir başarım düşüşüne neden olduğu bulunmuştur. Böylece, bu önemsiz hesaplama yükü ile başarılı bir şekilde gürültülü konuşma saptayarak, saptayıcı-güdümlü yaklaşımımızın muhtemel önemli verimlilik kazanımları için kullanılabileceğini doğruladık. Bu verimlilik kazanımı gürültü oluşma olasılığı ile ters orantılıdır. Bunun yanında, zaten temiz olan konuşmanın otomatik olarak tanımlanmasıyla, ara sıra oluşan işleme kusurlarının yol açtığı hafif bozulmalardan sakınılabileceğini de gösterdik.
Speech background noise is a common issue, which has become especially important with the increasing popularity of online meetings and live internet broadcasting. Recently, Deep Neural Networks (DNNs) have shown to be highly successful in the suppression of a wide variety of background noise types without requiring more than one microphone. However, such deep models which consume substantial resources cause many real-life applications to become expensive, burdensome or sometimes impractical. This thesis proposes a solution to mitigate the problem by de-activating a high performance DNN when there is no significant noise, that is, by a detector-driven noise removal approach. First, we optimized a modern time-domain convolutional neural network (CNN), known as Conv-TasNet, regarding the efficiency and performance. Then, a CNN-based noisy-speech detector was designed and evaluated with different size and resolution variations for the detector-driven scheme. We found that the optimal detector has only a 2% computation load of the optimal Conv-TasNet, with a very low noisy-speech miss-rate causing only negligible performance drop. Thus, having successful noisy-speech detection with this minor computation overhead, we justified our detector-driven approach for possible substantial gains in efficiency. This efficiency gain is inversely proportional to noise occurrence probability. Besides, we have also shown that, by automatic identification of already clean-speech, slight degradations due to occasional processing artifacts can be avoided.

Keywords

CNN, Gürültü Azaltma, Konuşma Iyileştirme, Computer Engineering and Computer Science and Control, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Noise, Noise Reduction, Gürültü, Speech Enhancement

Turkish CoHE Thesis Center URL

Click Here

End Page

77

URI

https://hdl.handle.net/123456789/14861
https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=RsTBl6RWK25OBMIKtIgYYY_B4QrNWpB_Yvb6nPWQ179OGAFtxpautnUQxGfXeraH

Collections

Yüksek Lisans Tezleri

Full item page

Google Scholar™

Check

Saptayıcı-güdümlü konuşma arka planı gürültüsünün evrişimsel ağlar ile giderilmesi

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Description

Keywords

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

URI

Collections

Google Scholar™

Sustainable Development Goals