Analyzing stemming and sentence simplification methodologies for turkish multi-document text summarization
Summary:
Automatic text summarization is the task of generating a compact and coherent version of a given text document or a set of text documents. Although there is a vast number of studies for automatic document summarization on English, there is only a limited number of studies for other languages, especially for Turkish. Text simplification aims to reduce the grammatical or lexical complexities of the sentences. Automatic text simplification systems can be an important part of any NLP task to improve system performance. In this thesis, we analyzed the effects of applying different levels of stemming approaches such as fixed-length word truncation and morphological analysis and the effects of applying text simplification techniques for multi-document summarization (MDS) on Turkish, which is an agglutinative and morphologically rich language. We constructed a manually annotated MDS data set, and to the best of our knowledge, reported the first results on Turkish MDS. Additionally, we developed a rule-based text simplification system for Turkish that utilizes the syntactic features of the sentences to identify simplification patterns. Our results show that a simple fixed- length word truncation approach performs slightly better than no stemming, whereas applying complex morphological analysis does not improve Turkish MDS in terms of ROUGE scores. Applying simplification rules that split complex sentences to individual simpler sentences as a preprocessing step slightly improves summarization performance, whereas applying a compression-based simplification approach relying solely on rule matching decreases the obtained ROUGE scores.
Özet:
Otomatik belge özetleme, verilen bir ya da birden çok belgenin içeriğinin kısa ve kapsayıcı bir şekilde özetlenmesi işlemidir. Otomatik belge özetleme alanında İngilizce dili üzerine yapılmış çok sayıda çalışma olmasına rağmen, diğer diller için, özellikle Türkçe için, yapılmış çok az çalışma bulunmaktadır. Metin sadeleştirme, cümlelerin dil bilgisi ve sözlük dağarcığı açısından içerdikleri karmaşıklıkların azaltılmasını hedefler. Bu yüzden otomatik metin sadeleştirme sistemleri Doğal Dil İşleme alanındaki problemlerde sistem başarımını iyileştirecek önemli bir aşama olarak değerlendirilmektedir. Bu tezde, farklı seviyelerde uygulanan kelime kökü bulma yöntemlerinin ve cümle sadeleştirme tekniklerinin Türkçe dili için otomatik çoklu belge özetleme başarımı üzerine etkileri incelenmiştir. Otomatik özetleme sisteminin değerlendirilmesi için insanlar tarafından özetlenmiş bir veri kümesi derlenmiş, bildiğimiz kadarıyla Türkçe için ilk çoklu belge özetleme sistemi çalışması gerçekleştirilmiştir. Ayrıca cümlelerin sözdizimsel özelliklerini kullanan kural tabanlı bir cümle sadeleştirme yöntemi geliştirilmiştir. Elde edilen sonuçlarda, kelime sonundan harf atma tekniği en iyi başarımı elde ederken, detaylı morfolojik analiz yöntemleri başarımı ROUGE ölçütüne göre artırmamıştır. Ayrıca, verilen bir cümleyi birden fazla daha sade cümleye ayıran cümle sadeleştirme tekniklerinin özetleme sistemi öncesinde uygulanması başarımı az miktarda yükseltirken, cümle kısaltmaya dayalı cümle sadeleştirme teknikleri ROUGE ölçütü değerlerini düşürmüştür.