Sürücü yorgunluğunu tespit etmek için gerçek zamanlı çok modlu derin öğrenme sistemi
Loading...

Date
2025
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
One of the main causes of traffic accidents is driver fatigue, especially during long-term and indifferent driving. In recent years, the use of image processing and audio analysis methods in this field has attracted much attention. The focus of this thesis is to create a multi-mode driver monitoring system that integrates visual and audio data analysis for rapid and accurate measurement of driver fatigue. The suggested methodology simultaneously assesses three fundamental behavioral signs: eye state, yawning behavior, and speech activity, as opposed to standard methods that concentrate on individual indicators like eye blinking or face expression. The system exhibits low latency performance and is based on a multi-threaded design for real-time operation. The components of the system, which operate simultaneously, include image processing, audio analysis and user interface modules. Visual and auditory warnings indicate driver fatigue. Due to its structure, the system is suitable for both embedded and desktop systems. A convolutional neural network (CNN) analyzes the eye state and uses two independently trained MobileNetV2 models and EfficientNet-B0 architecture to distinguish between speech and yawning. Geometric measurements obtained from the image, such as Eye Aspect Ratio (EAR) and Mouth Aspect Ratio (MAR), were other measurements used by the system's decision mechanism along with these deep learning-based classifiers. A weighted decision technique used these parameters to provide much more robust and reliable fatigue detection to the model outputs. The system can operate with great stability against variables such varying facial positions, lighting circumstances, and individual expression variances, according to the results of the experimental tests conducted. Additionally, false positive rates were reduced and good accuracy was attained in differentiating between speaking and yawning actions. Combining visual and audio data provides a more in-depth analysis of driver fatigue than is possible with a single method. This thesis presents a new method for improving driving safety using a real-time, auditory and visual fatigue detection system. The system created plays an important role in technologies that support individual drivers, such as long-distance transportation and fleet management. Future research can create a more comprehensive and sensitive monitoring system by monitoring biological signals, attention shift analysis, and head movements.
Trafik kazalarının başlıca nedenlerinden biri, uzun süreli sürüşlerde sürücü yorgunluğudur. Son yıllarda, bu alanda görüntü işleme ve ses analizi yöntemlerinin kullanımı büyük ilgi görmüştür. Bu tezin odak noktası, sürücü yorgunluğunun hızlı ve doğru bir şekilde ölçülmesi için görsel ve işitsel veri analizini entegre eden çok modlu bir sürücü izleme sistemi oluşturmaktır. Önerilen metodoloji, göz kırpma veya yüz ifadesi gibi bireysel göstergelere odaklanan standart yöntemlerin aksine, üç temel davranışsal işareti eş zamanlı olarak değerlendirir: göz durumu, esneme davranışı ve konuşma aktivitesi. Sistem düşük gecikme performansı sergiler ve gerçek zamanlı çalışma için çok iş parçacıklı bir tasarıma dayanır. Eş zamanlı çalışan sistem bileşenleri arasında görüntü işleme, ses analizi ve kullanıcı arayüzü modülleri bulunur. Görsel ve işitsel uyarılar sürücü yorgunluğunu gösterir. Yapısı gereği sistem hem gömülü hem de masaüstü sistemler için uygundur. Evrişimli bir sinir ağı (CNN), göz durumunu analiz eder ve konuşma ile esnemeyi ayırt etmek için bağımsız olarak eğitilmiş iki MobileNetV2 modeli ve EfficientNet-B0 mimarisini kullanır. Görüntüden elde edilen Göz En Boy Oranı (EAR) ve Ağız En Boy Oranı (MAR) gibi geometrik ölçümler, sistemin karar mekanizması tarafından bu derin öğrenme tabanlı sınıflandırıcılarla birlikte kullanılan diğer ölçümlerdir. Bu parametreler, ağırlıklı bir karar tekniği ile kullanılarak model çıktılarına daha güçlü ve güvenilir bir yorgunluk tespiti sağlanır. Yapılan deneysel testlerin sonuçlarına göre, sistem değişen yüz pozisyonları, aydınlatma koşulları ve bireysel ifade farklılıkları gibi değişkenlere karşı büyük bir kararlılıkla çalışabilmektedir. Ayrıca, yanlış pozitif oranları azaltılmış ve konuşma ve esneme eylemleri arasında ayrım yapmada iyi bir doğruluk elde edilmiştir. Görsel ve işitsel verilerin birleştirilmesi, tek bir yöntemle mümkün olandan daha derinlemesine bir sürücü yorgunluğu analizi sağlar. Bu tez, gerçek zamanlı, işitsel ve görsel bir yorgunluk tespit sistemi kullanarak sürüş güvenliğini artırmak için yeni bir yöntem sunmaktadır. Oluşturulan sistem, uzun mesafe taşımacılığı ve filo yönetimi gibi bireysel sürücüleri destekleyen teknolojilerde önemli bir rol oynamaktadır. Gelecekteki araştırmalar, biyolojik sinyalleri, dikkat kayması analizini ve baş hareketlerini izleyerek daha kapsamlı ve hassas bir izleme sistemi oluşturabilir.
Trafik kazalarının başlıca nedenlerinden biri, uzun süreli sürüşlerde sürücü yorgunluğudur. Son yıllarda, bu alanda görüntü işleme ve ses analizi yöntemlerinin kullanımı büyük ilgi görmüştür. Bu tezin odak noktası, sürücü yorgunluğunun hızlı ve doğru bir şekilde ölçülmesi için görsel ve işitsel veri analizini entegre eden çok modlu bir sürücü izleme sistemi oluşturmaktır. Önerilen metodoloji, göz kırpma veya yüz ifadesi gibi bireysel göstergelere odaklanan standart yöntemlerin aksine, üç temel davranışsal işareti eş zamanlı olarak değerlendirir: göz durumu, esneme davranışı ve konuşma aktivitesi. Sistem düşük gecikme performansı sergiler ve gerçek zamanlı çalışma için çok iş parçacıklı bir tasarıma dayanır. Eş zamanlı çalışan sistem bileşenleri arasında görüntü işleme, ses analizi ve kullanıcı arayüzü modülleri bulunur. Görsel ve işitsel uyarılar sürücü yorgunluğunu gösterir. Yapısı gereği sistem hem gömülü hem de masaüstü sistemler için uygundur. Evrişimli bir sinir ağı (CNN), göz durumunu analiz eder ve konuşma ile esnemeyi ayırt etmek için bağımsız olarak eğitilmiş iki MobileNetV2 modeli ve EfficientNet-B0 mimarisini kullanır. Görüntüden elde edilen Göz En Boy Oranı (EAR) ve Ağız En Boy Oranı (MAR) gibi geometrik ölçümler, sistemin karar mekanizması tarafından bu derin öğrenme tabanlı sınıflandırıcılarla birlikte kullanılan diğer ölçümlerdir. Bu parametreler, ağırlıklı bir karar tekniği ile kullanılarak model çıktılarına daha güçlü ve güvenilir bir yorgunluk tespiti sağlanır. Yapılan deneysel testlerin sonuçlarına göre, sistem değişen yüz pozisyonları, aydınlatma koşulları ve bireysel ifade farklılıkları gibi değişkenlere karşı büyük bir kararlılıkla çalışabilmektedir. Ayrıca, yanlış pozitif oranları azaltılmış ve konuşma ve esneme eylemleri arasında ayrım yapmada iyi bir doğruluk elde edilmiştir. Görsel ve işitsel verilerin birleştirilmesi, tek bir yöntemle mümkün olandan daha derinlemesine bir sürücü yorgunluğu analizi sağlar. Bu tez, gerçek zamanlı, işitsel ve görsel bir yorgunluk tespit sistemi kullanarak sürüş güvenliğini artırmak için yeni bir yöntem sunmaktadır. Oluşturulan sistem, uzun mesafe taşımacılığı ve filo yönetimi gibi bireysel sürücüleri destekleyen teknolojilerde önemli bir rol oynamaktadır. Gelecekteki araştırmalar, biyolojik sinyalleri, dikkat kayması analizini ve baş hareketlerini izleyerek daha kapsamlı ve hassas bir izleme sistemi oluşturabilir.
Description
Keywords
İnsan Bilgisayar Etkileşimi, Deep Learning, Derin Öğrenme, Computer Vision, Elektrik ve Elektronik Mühendisliği, Evrişimli Sinir Ağları, Electrical and Electronics Engineering, Bilgisayarla Görme, Human Computer Interaction, Yapay Zeka, Convolutional Neural Networks, Artificial Intelligence
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
96
