Başlık: Derin Öğrenme Tabanlı Türkçe Bağlılık Ayrıştırması
Eş-danışmanlar: Arzucan Özgür and Tunga Güngör
Özet:
Bağlılık ayrıştırma, otomatik soru cevaplama ve makine çevirisi gibi birçok doğal dil işleme (DDİ) sistemi için önemli bir adımdır. Morfolojik açıdan zengin bir dil olan ve karmaşık bir gramer yapısına sahip olan Türkçe dilinin otomatik olarak işlenmesi oldukça zordur. Türkçe için DDİ araçlarının ve kaynaklarının kısıtlı olması bu işi daha da zorlaştırmaktadır. Veri güdümlü derin öğrenme modelleri, bağlılık ayrıştırma alanında etkili performans göstermektedir. Veri güdümlü bir bağlılık ayrıştırıcıyı eğitmek için gereken verinin miktarı ayrıştırıcının performansını doğrudan etkilemektedir. Ayrıca, derin öğrenme tabanlı sistemlerin yüksek başarı göstermesi için büyük miktarlarda veriye ihtiyaç duyduğu gözlemlenmiştir. Bu tezde, Türkçe bağlılık ayrıştırma işindeki zorlukların üstesinden gelmek için iki tip çözüm önerdik. İlk olarak, Türkçe metinleri ayrıştırmak için gereken veri miktarını ve kalitesini artırdık. Bu bağlamda, 9.761 yeni cümleyi manuel olarak etiketleyerek BOUN ağaç yapılı derlemini oluşturduk. Aynı etiketleme şemasına sadık kalarak IMST ve PUD ağaç yapılı derlemlerini de yeniden etiketledik. Bu sayede Türkçe için dil bilgisi kurallarına göre tutarlı en büyük ağaç yapılı derlem koleksiyonunu kullanıma sunduk. İkinci olarak, Türkçe ve diğer az kaynaklı diller için özgün ve son teknoloji bağlılık ayrıştırıcılar geliştirdik. Önce,Türkçe dil bilgisi kurallarının ve kelimelerin morfolojik özelliklerinin derin öğrenme modeline entegre edildiği bir hibrit bağlılık ayrıştırma mimarisi önerdik. Sınırlı eğitim verisine rağmen, önerilen hibrit ayrıştırıcıyla Türkçe bağlılık ayrıştırmada mevcut yöntemlerden daha yüksek başarı elde ettik. Buna ek olarak, yarı denetimli geliştirmeye dayalı bir derin öğrenme tabanlı bağlılık ayrıştırıcı önerdik. Türkçe’nin yanı sıra kaynak yetersizliği olan başka dillerde de deneyler yaparak son teknoloji sonuçlar elde ettik. Derin öğrenme tabanlı modellerin yalnızca fazla miktarda eğitim verisiyle değil, aynı zamanda akıllıca çıkarılan bilgilerin entegrasyonuyla da geliştirilebileceğini gösterdik.