Başlık: Morfolojisi Zengin Diller için Kelime Bölümleme Algoritmalarının Kapsamlı bir Analizi
Danışman: Tunga Güngör
Özet:
Dönüştürücü dil modelleri, çok çeşitli doğal dil işleme görevlerinde olağanüstü başarıların yolunu açmıştır. Dönüştürücü dil modellerinde ilk adım, girdiyi jetonlara bölmektir. Yıllar boyunca, çeşitli bölümleme yaklaşımları ortaya atılmıştır. Bu yaklaşımlar, karakter ve kelime seviyesindeki temsillerden alt kelime seviyesindeki temsillere doğru daha da gelişmiştir. Bununla birlikte, özellikle morfolojik olarak zengin diller için, kelime bölümleme algoritmalarının model performansı üzerindeki etkisi tam olarak tartışılmamıştır. Bu tezde, çekimli ve morfolojik açıdan oldukça zengin bir dil olan Türkçe için alt kelime bölümleme algoritmalarının kapsamlı bir şekilde analizi yapılmıştır. Bölümleme algoritmalarının Türkçenin morfolojisini ne kadar iyi kodladığını değerlendirmek için çeşitli metrikler tanımlanmıştır. Ayrıca, sözcük dağarcığı ve derlem boyutu gibi farklı belirteç parametrelerinin belirteçlerin özelliklerini nasıl değiştirdiği incelenmiştir. Ek olarak, sondan eklemeli ve morfolojik olarak zengin diller için yeni bir bölümleme algoritması önerilmiştir. Önerilen kelime bölümleme algoritmasının daha iyi genelleme performansı sağladığı gösterilmiştir. Doğal dil işleme deneyleri, kelime bölümlemede morfoloji denetiminin model performansını iyileştirdiğini göstermektedir.