Saptayıcı-güdümlü konuşma arka planı gürültüsünün evrişimsel ağlar ile giderilmesi

dc.contributor.advisor Savran, Arman
dc.contributor.author Ayar, Cem
dc.date.accessioned 2026-04-07T13:03:47Z
dc.date.available 2026-04-07T13:03:47Z
dc.date.issued 2022
dc.description.abstract Konuşma arka planı gürültüsü, çevrimiçi toplantıların ve canlı internet yayınlarının artan popülaritesi ile özelikle önem teşkil eden, yaygın bir sorundur. Son zamanlarda, Derin Sinir Ağlarının (DSA), geniş bir yelpazedeki arka plan gürültü çeşitlerinin bastırılmasında, birden fazla mikrofon gerektirmeden yüksek başarı elde ettiği gösterilmiştir. Ancak, ciddi kaynak tüketen böyle derin ağlar birçok gerçek hayat uygulamasının pahalı, külfetli veya bazen kullanışsız olmasına yol açar. Bu tez, problemi hafifletmek için, yüksek başarımlı bir DSA'yı, kayda değer gürültü olmayan zamanlarda devre dışı bırakan, yani saptayıcı-güdümlü bir gürültü giderme yaklaşımı ile, bir çözüm önermektedir. İlk olarak, Conv-TasNet olarak bilinen zaman alanında çalışan modern bir evrişimsel sinir ağı (ESA), verimlilik ve başarımına göre eniyilenmiştir. Sonra, ESA-temelli bir gürültülü konuşma saptayıcı tasarlanmış ve farklı büyüklük ve çözünürlük varyasyonları ile saptayıcı-güdümlü tasarı için değerlendirilmiştir. Optimum saptayıcının, optimum Conv-TasNet'in hesaplama yükünün sadece %2'sine sahip olduğu ve çok düşük gürültülü konuşma ıskalama oranı ile sadece ihmal edilebilir bir başarım düşüşüne neden olduğu bulunmuştur. Böylece, bu önemsiz hesaplama yükü ile başarılı bir şekilde gürültülü konuşma saptayarak, saptayıcı-güdümlü yaklaşımımızın muhtemel önemli verimlilik kazanımları için kullanılabileceğini doğruladık. Bu verimlilik kazanımı gürültü oluşma olasılığı ile ters orantılıdır. Bunun yanında, zaten temiz olan konuşmanın otomatik olarak tanımlanmasıyla, ara sıra oluşan işleme kusurlarının yol açtığı hafif bozulmalardan sakınılabileceğini de gösterdik. tr
dc.description.abstract Speech background noise is a common issue, which has become especially important with the increasing popularity of online meetings and live internet broadcasting. Recently, Deep Neural Networks (DNNs) have shown to be highly successful in the suppression of a wide variety of background noise types without requiring more than one microphone. However, such deep models which consume substantial resources cause many real-life applications to become expensive, burdensome or sometimes impractical. This thesis proposes a solution to mitigate the problem by de-activating a high performance DNN when there is no significant noise, that is, by a detector-driven noise removal approach. First, we optimized a modern time-domain convolutional neural network (CNN), known as Conv-TasNet, regarding the efficiency and performance. Then, a CNN-based noisy-speech detector was designed and evaluated with different size and resolution variations for the detector-driven scheme. We found that the optimal detector has only a 2% computation load of the optimal Conv-TasNet, with a very low noisy-speech miss-rate causing only negligible performance drop. Thus, having successful noisy-speech detection with this minor computation overhead, we justified our detector-driven approach for possible substantial gains in efficiency. This efficiency gain is inversely proportional to noise occurrence probability. Besides, we have also shown that, by automatic identification of already clean-speech, slight degradations due to occasional processing artifacts can be avoided. en_US
dc.identifier.uri https://hdl.handle.net/123456789/14861
dc.identifier.uri https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=RsTBl6RWK25OBMIKtIgYYY_B4QrNWpB_Yvb6nPWQ179OGAFtxpautnUQxGfXeraH
dc.language.iso en
dc.subject CNN tr
dc.subject Gürültü Azaltma tr
dc.subject Konuşma Iyileştirme tr
dc.subject Computer Engineering and Computer Science and Control en_US
dc.subject Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol tr
dc.subject Noise en_US
dc.subject Noise Reduction en_US
dc.subject Gürültü tr
dc.subject Speech Enhancement en_US
dc.title Saptayıcı-güdümlü konuşma arka planı gürültüsünün evrişimsel ağlar ile giderilmesi tr
dc.title Detector-Driven Speech Background Noise Removal with Convolutional Networks en_US
dc.type Master Thesis
dspace.entity.type Publication
gdc.description.department LİSANSÜSTÜ EĞİTİM ENSTİTÜSÜ / Bilgisayar Mühendisliği Ana Bilim Dalı
gdc.description.department
gdc.description.endpage 77
gdc.identifier.yoktezid 755637
gdc.virtual.author Savran, Arman
gdc.virtual.author Ayar, Cem
relation.isAuthorOfPublication ec3245ee-803e-4537-8ade-40b369fad1c3
relation.isAuthorOfPublication 477735cb-16bd-4ae1-9118-7a3196ce1109
relation.isAuthorOfPublication.latestForDiscovery ec3245ee-803e-4537-8ade-40b369fad1c3
relation.isOrgUnitOfPublication ac5ddece-c76d-476d-ab30-e4d3029dee37
relation.isOrgUnitOfPublication.latestForDiscovery ac5ddece-c76d-476d-ab30-e4d3029dee37

Files