Kurumlar ve şirketler kendi marka ya da ürünleri hakkında toplumun algısını ölçmek için sıklıkla duygu analizi çalışmalarına başvuruyor. Herhangi bir metnin duygusunu bulmaya dayanan duygu analizi çalışmaları artık makine öğrenmesi yöntemleriyle çok daha hızlı ve güvenilir sonuçlarla yürütülüyor. Boğaziçi Üniversitesi Bilgisayar Mühendisliği Bölümü öğretim üyesi Prof. Dr. Tunga Güngör de denetimsiz ve yarı denetimli makine öğrenme yöntemlerini kullanarak Twitter ve beyazperde.com sitelerinden alınan veriler üzerine yürüttüğü “Türkçe için Kapsamlı bir Duygu Analizi Çatısı Oluşturulması” isimli projesiyle Türkçe için yapılan en detaylı duygu analizi çalışmasını tamamladı.
Duygu analizi çalışmaları bir cümlenin veya metnin pozitif, negatif ya da nötr olmak üzere duygusunu belirlemeye dayanıyor. Doğal dil işleme ve makine öğrenmesi yöntemleriyle otomatik olarak yapılan duygu analizi işlemi, ifade edilen duygu, bu duyguyu belirten kişi, bu duygunun belirtildiği zaman dilimi, duygunun hangi nesneyle ve bu nesnenin hangi özellikleriyle ilgili olduğu olmak üzere beş farklı değişkeni belirlemeyi amaçlıyor.
Türkçe’de duygu analizi için bu beş gereksinimin tamamını karşılayan bir çalışma şu ana kadar yürütülmemekle birlikte, Boğaziçi Üniversitesi Bilgisayar Mühendisliği Bölümü öğretim üyesi Prof. Dr. Tunga Güngör doktora öğrencisi Cem Rıfkı Aydın ile birlikte bu eksikliği gidermek üzere projelerini tamamladılar.
Film eleştiri sitesi beyazperde.com ve Twitter verileri üzerinden projelerini yürüten Prof. Dr. Güngör, akademik çalışmalar için beyazperde.com üzerinden edinilen yorum veri setinin sıklıkla kullanıldığını ancak bu sistemin farklı veriler üzerinde de uygulanabilir olduğunu belirtti: “Filmle ilgili yazılan herhangi bir yorum cümlesinin duygusunu bulmak temel amaç ama aslında farklı bir konudaki başka bir yorum da olabilir. Ticari verilere ulaşmak daha zor olduğu için genellikle film yorumları kullanılıyor ve oluşturulan her yeni sistem aynı veri seti üzerinden denenebiliyor.”
Film yorumlarının yanında Twitter üzerinden marka bazlı bir çalışma da yaptıklarını aktaran Güngör, sistemin çalışma prensibini şöyle anlattı: “Sistem makine öğrenmesi metotlarıyla çalışıyor. Örneğin elimizde bir veri seti olduğunu düşünelim. Twitter örneğinde önce her bir twit’in duygusunun pozitif, negatif ya da nötr bir duygu olup olmadığına dair etiketlenmesi gerekiyor. Sonra da %90’ı makinayı eğitmek %10’u da bu eğitimi test etmek üzere tasarlanan klasik veya derin makine öğrenmesi işlemlerini uyguluyoruz. Bu %90 eğitim verisini kullanarak, sistem öğrenme algoritmaları sayesinde bir model öğreniyor. Modelde kritik olan nokta twit’le ilgili hangi bilgiyi kullandığımız. Biz doğal dil işleme alanında olduğumuz için genellikle kelimeleri kullandık. Makinaya twit’teki kelimeler veriliyor ve basit bir ifadeyle sistem ‘Şu kelime negatif twit’lerde daha çok geçiyor, demek ki negatif bir kelime; şu kelime hem negatif hem pozitif twit’lerde çok geçiyor, demek ki ayırıcı bir kelime değil’ gibi çıkarımlar yaparak bir model öğreniyor.”
Projede kullanılan yöntemler duygu sözlükleri oluşturma, makine öğrenmesi yöntemleri ve öznitelik kümeleri, büklümlü yapay sinir ağları, anlamsal/duygusal kelime vektörleri ve yön bazlı duygu analizi olarak sıralanabilir.
Türkçe’ye özgü detaylarla duygu analizi çalışması
Farklı diller için yapılmış çok sayıda duygu analizi çalışması bulunsa da bunları Türkçe’ye uyarlamanın zor olduğunu vurgulayan Tunga Güngör, Türkçe’nin yapısından dolayı daha detaylı bir çalışma gerektirdiğini ifade etti: “Türkçe’de iki ya da daha çok kelimeden oluşan bazı kelime gruplarını bir kalıp olarak düşünerek duygusunu bulmak gerekebiliyor. Benzer bir durum, olumsuzluk içeren ifadeler. Örneğin, ‘güzel’ kelimesi pozitif bir kelime olarak alınsa da kullanım şekline göre, ‘güzel değil’ denilince negatif bir duygu içeriyor. Aynı zamanda Türkçe sondan eklemeli bir dil olduğu için eklerin de duygusunu bulmak gerekiyor. Bunun gibi Türkçe’ye özgü çok sayıda ayrıntı var, biz projede bunları da belirlemeye çalıştık.”
Halihazırda sosyal medya analizi yapan çok sayıda şirket ya da ürün bulunsa da çoğu sistemin detayları dikkate almadığını belirten Prof. Dr. Tunga Güngör, “Örneğin bir cümlede iki farklı duygu olabiliyor. ‘Bu telefonun bataryası çok uzun süre gidiyor ama ekranını hiç beğenmedim,’ gibi bir cümlede bir ürünün iki farklı yönüyle ilgili iki farklı duygu var, bu yüzden önce neden bahsedildiğini de bulmak gerekli. Biz projede duygu analizinin bu yönünü de dikkate alarak daha detaylı bir çalışma yaptık,” ifadeleriyle projelerinin diğer çalışmalardan farklarını açıklıyor.
“Biz proje başlarken ifade edilen duygu, bu duyguyu belirten kişi, bu duygunun belirtildiği zaman dilimi, duygunun hangi nesneyle ve bu nesnenin hangi özellikleriyle ilgili olduğu olmak üzere 5 farklı kısım üzerine bir çatı oluşturmayı hedeflemiştik; ancak ifade edilen duygu ve duygunun hangi nesneyle ve nesnenin hangi özellikleriyle ilgili olduğu üzerine çalışmalarımızı bitirebildik,” ifadeleriyle proje sonucu ulaşılanları aktaran Prof. Dr. Güngör ve doktora öğrencisi Cem Rıfkı Aydın’ın projesi bu haliyle de Türkçe üzerine yapılmış en kapsamlı ve detaylı duygu analizi çalışması olma özelliğini koruyor.
Yapılan denemeler sonucu geliştirdikleri sistemin film yorumları veri seti için %90, Twitter veri seti için ise %80 oranında doğruluk oranına sahip olduğunu belirten Prof. Dr. Tunga Güngör, sosyal medya üzerinden edinilen verilerin yazım yanlışları gibi nedenlerle genellikle “kirli” veriler olarak görüldüğünü ve diğer veri setlerine göre daha düşük oranda doğruluk oranına sahip olduğunu ekledi.