Morphological Annotation Of A Corpus With A Collaborative Multiplayer Game

Morphological Annotation Of A Corpus With A Collaborative Multiplayer Game

Advisor: 

Tunga Gungor

Assigned to: 

Onur Gungor

Type: 

Year: 

2009

Status: 

Summary:

In most of the natural language processing tasks, state of the art systems usually rely on machine learning methods for building their mathematical models. Given that the majority of these systems employ supervised learning strategies, a corpus that is annotated for the problem area is essential. The current method for annotating a corpus is to hire several experts and make them annotate the corpus manually or -in its best practice- by using a helper software. However, this method is costly and time-consuming if not error free. We propose a method that aims to solve these problems at once. By employing a multiplayer collaborative game that is playable by ordinary people on the Internet, it seems possible to direct the covert labour force so that people can contribute by just playing a fun game. Through a game site which incorporates some functionality inherited from social networking sites, people are motivated to contribute to the annotation process by answering questions about the underlying morphological features of a target word. The results reported in the thesis are compiled from the first eleven days of the experiment which is planned to continue until an indeterminate date. It is reported that the 63.5 per cent of the actual question types are successful based on two phases. The current 74 question types cover 58.3 per cent of the corpus completely while increasing this number to only 100 types increases the coverage rate to 70.7 per cent. Due to the time constraints and the relatively low traffic to the site, we were not able to annotate the corpus completely, but we can nevertheless estimate a hypothetical rate of successful morphological disambiguation as 51.4 per cent of the whole corpus which is calculated to be completed in two and a half months if the game were to be hosted on a major web site. This is indeed a relatively short duration for a bootstrapping of this size when compared with the current methods.

Özet:

Doğal dil işleme görevlerini gerçekleştirmek için geliştirilmiş en gelişkin sistemler modellerini kurarken çoğunlukla makine öğrenmesi yöntemleri kullanırlar. Çoğunun öğreticiyle öğrenme yolunu seçtikleri düşünüldüğünde, ilgili doğal dil işleme sorununa uygun olarak işaretlenmiş bir derlemin zorunluluğu ortaya çıkar. İşaretlemede kullanılan güncel yöntem, konusunda uzmanlaşmış kişilerin işlemi elle veya yardımcı bir yazılım kullanarak gerçekleştirmesidir. L\^akin, bu, yer yer hatalara yol açmasının yanında, masraflıdır ve uzun zaman gerektirir. Yöntemimiz bu sorunların hepsini bir anda çözmeyi hedefler. Herhangi bir internet kullanıcısının oynayabileceği yardımlaşma\-cı ve eğlence amaçlı bir oyunu oynatmak marifetiyle açığa çıkmamış işgücünün derlem işaret\-lenmesi yönünde değerlendirilebileceğini düşünüyoruz. İnsanlar, sosyal ağ sitelerinden devşirilmiş bazı özellikleri de taşıyan bir sitedeki belirli bir sözcük hakkında\-ki sorulara cevap vererek işaretlemeye katkıda bulunmaya teşvik ediliyor. Tezde verilen sonuçlar gerçekleştirilen deneyin ilk on bir gününden oluşturulmuştur. Deney belirsiz bir tarihe kadar devam etmek üzere hala çalışmaktadır. Sonuçlara göre, halihazırdaki 74 soru çeşidinin iki fazdan oluşan değerlendirmesine göre yüzde 63.5'lük bir başarı oranı yakalanmıştır. Bahsi geçen soru çeşitleri derlemin yüzde 58.3'ünün biçimbilimsel çözümlemesini yapabilmektedir. Soru çeşidi sayısını 100'e çıkarmak, bu oranı yüzde 70.7'e çıkaracaktır. Zaman kısıtı ve ziyaretçi azlığından dolayı bahsedilen düzeyde bir işaretle\-me yapılamamasına rağmen, ulaşılacak başarı oranı üzerine bir tahmin yapmak gerekirse yüzde 51.4 oranı elde edilecektir. Bu işlemin, büyük bir ulusal gazetenin web sayfasında gerçekleştirildiği takdirde, iki buçuk ay içinde tamamlanacağı düşünülmekte\-dir. Bu, bu çaptaki bir işaretleme işi için göreli olarak kısa bir süredir.

Bize Ulaşın

Bilgisayar Mühendisliği Bölümü, Boğaziçi Üniversitesi,
34342 Bebek, İstanbul, Türkiye

  • Telefon: +90 212 359 45 23/24
  • Faks: +90 212 2872461
 

Bizi takip edin

Sosyal Medya hesaplarımızı izleyerek bölümdeki gelişmeleri takip edebilirsiniz