A Study Of A Group Of Healthcare Datasets in Data Mining Domain

A Study Of A Group Of Healthcare Datasets in Data Mining Domain

Advisor: 

Fikret Gurgen

Assigned to: 

Fikri Mert Kurum

Type: 

Year: 

2013

Status: 

Summary:

This research is to search for alternatives to the resolution of complex medical diagnosis where human knowledge should be apprehended in a general fashion. Successful application examples show that human diagnostic capabilities are significantly worse than the neural diagnostic system. The study presents the particular case of analysis of eleven datasets containing data associated to several Healthcare datasets. The datasets are analyzed in various Healthcare domains to target different Medical areas. Paradigm of artificial neural networks is shortly introduced and the main problems of medical data base and the basic approaches for training and testing a network by medical data are described. There are eight algorithms used in this study, which are DT, SVM, RBF, MLP, k-NN, Naïve Bayes, Bayes Net and Logistic Regression. These eight algorithms have been performed with using 10-fold cross validation and train/test split over the eleven datasets. It?s also examined what is the effect of Principal Component Analysis inside the research. The performance metrics that are focused in this thesis are Percent Correct, True Positive Rate, False Positive Rate, Precision, Recall, F-Measure, AUC and Error Rates. As this is a benchmarking study for different classifiers and datasets, a special benchmarking criterion has been created for the evaluation of the thesis.

Özet:

Bu araştırma farklı tıbbi tanılar için insan bilgisinin yanında, veri madenciliği üzerinde farklı alternatifler aramak içindir. Yapılan birçok başarılı uygulama örnekleri içerisinde insan teşhis yeteneklerinin sonuçlarının nöral teşhis sistemi sonuçlarına göre daha kötü sonuçlar verdiği göstermektedir. Çalışma sağlık alanındaki Onbir adet verinin veri madenciliği analizi ile ilgilidir.Çalışma içerisinde farklı Tıbbi alanlar hedeflenerek Veri Madenciliği analizlerinin çeşitli Sağlık verilerine yaptığı yorumlar incelenmiştir. Yapay sinir ağlarının sağlık alanındaki çalışmaları kısaca tanıtıldı, tıbbi veri tabanı ve eğitim, ve tıbbi verilerin bir sinir ağı test edilmesine yönelik temel yaklaşımların üzerinde duruldu. Birkaç test yapılandırmaları, algoritmalar için en iyi ayarı belirlemek için test edilmektedir. Bu çalışmada kullanılan Sekiz adet veri madenciliği algoritmaları bulunmaktadır. Detayları ise şu şekildedir: DT, SVM, RBF, MLP, k-NN, Naive Bayes, Bayes Net ve Lojistik Regresyon. Belirtilen Sekiz adet algorithma ?10-fold cross validation? ve ?train/test split? değerlendirmeleri göz önüne alınarak Onbir adet veri üzerinde değerlendirilmiştir. Bununla beraber PCA için de ayrı bir değerlendirme gerçekleştirilerek araştırma içerisindeki farklılıkları gösterilmiştir. Tez içerisinde odaklanılan performans metrikleri ise şu şekildedir: Percent Correct, True Positive Rate, False Positive Rate, Precision, Recall, F-Measure, AUC ve Error Rates. Bu tez farklı algoritmalar ve veriler üzerien bir kıyaslama çalışması olduğundan dolayı, tez çalışmasının değerlendirilmesi için özel bir kıyaslama ölçütü oluşturulmuştur.

Bize Ulaşın

Bilgisayar Mühendisliği Bölümü, Boğaziçi Üniversitesi,
34342 Bebek, İstanbul, Türkiye

  • Telefon: +90 212 359 45 23/24
  • Faks: +90 212 2872461
 

Bizi takip edin

Sosyal Medya hesaplarımızı izleyerek bölümdeki gelişmeleri takip edebilirsiniz