Semi-Supervised Learning Based Named Entity Recognition For Morphologically Rich Languages

Semi-Supervised Learning Based Named Entity Recognition For Morphologically Rich Languages

Advisor: 

Arzucan Ozgur

Assigned to: 

Hakan Demir

Type: 

Year: 

2014

Status: 

Summary:

In this study, we addressed the Named Entity Recognition (NER) problem for morphologically rich languages by employing a semi-supervised learning approach based on neural networks. We adopted a fast unsupervised method for learning continuous vector representations of words, and used these representations along with language independent features to develop a NER system. We evaluated our system for the highly inflectional Turkish and Czech languages and obtained better F-score performances than the previously published results for these languages. We improved the state-of-the-art F-score by 2.26% for Turkish and 1.53% for Czech. Unlike the previous state-of-the-art systems developed for these languages, our system does not make use of any language dependent features. Therefore, we believe it can easily be applied to other morphologically rich languages.

Özet:

Bu çalışmamızda morfolojik açıdan zengin dillerde varlık ismi tanıma probleminin çözümüyle ilgilendik. Bu bağlamda, yapay sinir ağlarına dayalı yarı güdümlü öğrenme metodunu kullandık. İlk evrede, hızlı ve güdümsüz bir algoritma kullanarak kelimelerin çok boyutlu sürekli uzaydaki vektör gösterimlerini elde ettik. İkinci evrede ise, kelimelerin bu gösterimleri ile birlikte diğer bazı dil bağımsız öznitelikler de kullanarak varlık ismi tanıma sistemi geliştirdik. Oluşturduğumuz bu sistemi çok çekimli dillerden olan Türkçe ve Çekçe üzerinde denedik ve bu diller üzerinde yayınlanmış en gelişkin sistemlerden daha iyi performanslar elde ettik. Türkçe'de en gelişkin sistemi %2.26 ile, Çekçe'de ise en gelişkin sistemi %1.53 ile geliştirdik. Dile özgü öznitelikler de kullanan bu en gelişkin sistemlerden farklı olarak, çalışmamızda tamamen dilden bağımsız öznitelikler kullandık. Dolayısıyla yaptığımız bu çalışmanın morfolojik açıdan zengin olan diğer dillere de kolaylıkla ve başarıyla uygulanabileceğini düşünüyoruz.

Bize Ulaşın

Bilgisayar Mühendisliği Bölümü, Boğaziçi Üniversitesi,
34342 Bebek, İstanbul, Türkiye

  • Telefon: +90 212 359 45 23/24
  • Faks: +90 212 2872461
 

Bizi takip edin

Sosyal Medya hesaplarımızı izleyerek bölümdeki gelişmeleri takip edebilirsiniz