Statistical Comparison Of Classifiers Using Receiver Operating Characteristics information

Statistical Comparison Of Classifiers Using Receiver Operating Characteristics information

Advisor: 

Ethem Alpaydin

Assigned to: 

Ozlem Aslan

Type: 

Year: 

2009

Status: 

Summary:

Statistical tests in the literature mainly use error rate for comparison and assume equal loss for false positives and negatives. Receiver Operating Characteristics (ROC) curves and/or the Area Under the ROC Curve (AUC) can also be used for comparing classifier performances under a spectrum of loss values. A ROC curve and hence an AUC value is typically calculated from one training/test pair and to average over randomness in folds, we propose to use k-fold cross-validation to generate a set of ROC curves and AUC values to which we can fit a distribution and test hypotheses on. Experiment results on 15 datasets using 5 different classification algorithms show that our proposed test using AUC values is to be preferred over the usual paired t test on error rate because it can detect equivalences and differences which the error test cannot. The approach we use for ROC curves can also be applied to Precision-Recall curves, used mostly in information retrieval by applying k-fold cross-validated test on the area under the Precision-Recall curve. When multiple classifiers are to be compared over one dataset or multiple datasets, we can use Analysis of Variance (ANOVA). When we use more than one performance metric, we use the multivariate ANOVA, that is, MANOVA. Performance metrics of ANOVA is error or AUC. Performance metrics of MANOVA are true positive, false positive, true negative and false negative rates. We also perform the nonparametric version of ANOVA which is called Friedman test. We apply Sign test when we compare multiple classifiers over multiple datasets. We observe that using more than one per- formance metric includes their correlation in the statistical test and therefore produces more accurate results.

Özet:

Literatürdeki istatistiksel testler genelde hata oranını kullanırlar ve yanlış pozitif and yanlış negatiflerin maliyetlerinin aynı oldugunu varsayarlar. ROC eğrileri ve/veya ROC Eğrilerinin Altındaki Alan (AUC), çeşitli maliyet değerlerine göre sınıflandırıcıların performanslarını karşılaştırmak için kullanılabilir. Bir ROC eğrisi ve bir ROC eğrisinin altındaki alan genellikle bir öğrenme/sınama çiftinden hesaplanır ve verideki rastsallığın ortalamasını almak için ve dağılım oturtabileceğimiz ve üzerinde hipotez testi yapabilece ğimiz bir ROC eğrileri kümesi ve AUC değerleri oluşturmayı öneriyoruz. 15 veri kümesi üzerinde 5 farklı sınıflandırma algoritması kullanılarak bulduğumuz deneysel sonuçlar gösteriyor ki bizim önerdiğimiz AUC testi hata oranını kullanan eşli t testine göre daha üstündür¸cünkü AUC testi hata testinin fark edemeyeceği eşitlik ve farklılıkları fark edebiliyor. ROC eğrileri için kullandığımız yaklaşım, Doğruluk- Anımsama eğrilerinin altında kalan alana k-kat¸capraz-geçerleme uygulayarak da kullanılabilir. Birden çok sınıflandırıcıyı bir veri kümesi veya birden çok veri kümesi üzerinde karşılaştırımak için Varyans Analizi (ANOVA) kullanabiliriz. Birden çok performans metriği üzerinden karşılaştırma yapmak için, çok değişkenli ANOVA, MANOVA, kullanırız. ANOVA'nın performans metrikleri hata veya AUC olabilir. MANOVA'nın performans metrikleri doğru pozitif, yanlış pozitif, doğru negatif ve yanlış negatif değerleridir. ANOVA'nın parametrik olmayan versiyonu olan Friedman testini de yapıyoruz. Çoklu sınıflandırıcıları çoklu veri kümeleri üzerinden karşılaştırırken İşaret testi uyguluyoruz. Birden çok performans metriği kullanmanın onların korelasyonlarını içerdiğini ve bu yüzden daha güvenilir sonuçlar ürettiğini gözlemliyoruz.

Contact us

Department of Computer Engineering, Boğaziçi University,
34342 Bebek, Istanbul, Turkey

  • Phone: +90 212 359 45 23/24
  • Fax: +90 212 2872461
 

Connect with us

We're on Social Networks. Follow us & get in touch.