Veri madenciliğinde öznitelik seçim tekniklerinin kararlılıkları ve sınıflandırma performansları arasındaki ilişkinin değerlendirilmesi

Loading...
Publication Logo

Date

2019

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Her yıl üretilen ve depolanan veri miktarı üstel olarak artmaktadır. Hem veri kümeleri hem de veri kümesi boyutlarındaki yaşanan bu önemli artış, veri analizi tekniklerini ve algoritmalarını olumsuz yönde etkileyerek karmaşık modellerin üretilmesine, performans kayıplarına ve artan hesaplama maliyetlerine neden olmuştur. Bu problemlerin önlenmesi ve üstesinden gelinmesi için, Öznitelik seçimi gibi, çeşitli veri önişleme teknikleri geliştirilmiştir. Boyut küçültme (indirgeme) tekniği olan öznitelik seçimi, sınıflandırıcıların analiz kalitesini, verimliliğini ve genelleme kapasitesini geliştirmek, hesaplama maliyetlerini azaltmak ve yüksek sınıflandırma veya kümeleme doğruluğuna sahip basit ve anlaşılabilir modeller oluşturmak için kullanılır. Öznitelik seçim algoritmaları tarafından elde edilen öznitelik altkümelerinin sınıflandırma veya kümelenme performanslarının yanı sıra, öznitelik seçim algoritmasının kararlılığı veya sağlamlığı da test edilmelidir. Kararlılık, öznitelik seçim algoritmasının eğitim setinde yapılan değişikliklere karşı hassasiyetinin ölçüsüdür. Düşük hassasiyete sahip algoritma, yani kararlı bir algoritma, eğitim kümesinde yapılan her değişiklikten sonra aynı veya çok benzer sonuçlar (öznitelik altkümeleri veya sıraları) verirken, yüksek hassasiyete sahip algoritma, yani kararsız bir algoritma, her değişiklikten sonra farklı sonuçlar verir. Kararsız bir algoritma tarafından üretilen sonuçlar değişken olacağından, sınıflandırma modellerinin oluşturulmasında kullanılacak sonuçların (öznitelik kümesinin) seçilmesini ve girdi ve çıktılar arasındaki ilişkinin kurulmasını zorlaştırır. Öznitelik seçim algoritmasına olan güveni sarsar. Bu nedenle, algoritma kararlılığı öznitelik seçim algoritmaları için önemli bir başarı kriteridir. Bu tezde kararlılık ile sınıflandırma performansı arasındaki ilişkiyi belirlemek ve yorumlamak için toplam yedi filtreleyen (T-Testi, viiBhattacharyya, Wilcoxon, ROC, Entropi, ReliefF ve Karar Ağacı Topluluğu) ve iki ardışık seçim (Ardışık İleri Öznitelik Seçimi (SFS) ve Ardışık Geri Öznitelik Seçimi (SBS)), veya sarmalayan, öznitelik seçimi algoritması, on iki kararlılık ölçüsü, üç sınıflandırıcı ve yedi gerçek dünya veri kümesi kullanılmıştır.
Each year the amount of data produced and stored increases exponentially. This significant increase in both datasets and dataset sizes adversely affects data analysis techniques and algorithms, results in the production of complex models, performance losses and increased computational costs. Various data preprocessing techniques, such as feature selection, have been developed to prevent and overcome these problems. Feature selection, which is a data size (dimension) reduction technique, is used to improve analysis quality, efficiency and generalization capacity of classifiers, to reduce computational costs and to create simple and understandable models that have high classification or clustering accuracy. Besides the classification or clustering performances of the feature subsets obtained by the feature selection algorithms, stability, i.e., robustness, of the feature selection algorithm should also be tested. Stability is the measure of the sensitivity of the feature selection algorithm against the changes (perturbations) made on the training set. Algorithm with low sensitivity, i.e., a stable algorithm, produces the same or very similar results (feature subsets or ranks) after each change done in the training set, whereas algorithm with high sensitivity, i.e., an unstable algorithm, produces different results after each change. Since the results produced by an unstable algorithm will be variant, it makes it difficult to select the result set (feature set) to be used in building classification models and to establish the relationship between inputs and outputs. This undermines trust in the feature selection algorithm. Therefore, algorithm stability is an important success criterion for feature selection algorithms. In this thesis, a total of seven filter (T-Test, Bhattacharyya, Wilcoxon, ROC, Entropy, ReliefF and Decision Tree Ensemble) and two sequential (Sequential Forward Feature Selection (SFS) and Sequential Backward Feature vSelection (SBS)), or wrapper, feature selection algorithms, twelve stability measures, three classifiers and seven real-world datasets were used to determine and interpret the relationship between feature selection algorithm stability and classification performance.

Description

Keywords

Computer Engineering and Computer Science and Control, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

146

Collections

Google Scholar Logo
Google Scholar™

Sustainable Development Goals