EN / TR
Özge Karasu Özge Karasu

Merak ederim, sorgularım, yazarım.

Vektör Uzayı Anlambilimi ile Karakter Benzerliği

10.01.2025

Proje Özeti

Bu projede, BBC dizisi EastEnders’daki diyalog verilerinde karakter benzerliğini ölçmek için dağıtımsal anlambilim yöntemleri kullanıldı. Her karakterin konuşmaları birer belge vektörüne dönüştürüldü ve benzerlik, bilgi getirimi (IR) tarzı tekniklerle değerlendirildi.

Kullanılan Teknikler

  • Veri Hazırlama:

    • Eğitim verisinden karakter başına en fazla 300 replik çıkarıldı
    • Doğrulama ve test setlerinden en fazla 50 replik alındı
  • Ön İşleme:

    • Tokenizasyon, küçük harfe çevirme, durak kelime çıkarımı, noktalama işaretlerinin silinmesi
    • POS etiketleme ve sahne metaverileri ile bağlamsal cümle seçimi eklendi
  • Özellik Mühendisliği:

    • Kelime torbası (bag-of-words) ve TF-IDF vektörleri
    • N-gram (1–3), belge frekansı filtreleme
    • Sözlüksel geliştirme için harici kaynaklar
  • Değerlendirme:

    • En yakın komşu sıralaması için kosinüs benzerliği
    • Metrikler: Ortalama Sıra, Doğruluk, Hit@1, Hit@3
    • Görselleştirmeler: Isı haritaları ve benzerlik matrisleri

Sonuçlar

  • Doğrulama setinde ortalama sıra yaklaşık 1.7, doğruluk ise 0.62’ye ulaştı.
  • TF-IDF + bağlamsal sahne bilgisi en iyi anlamsal ayrışmayı sağladı.
  • Ayrıntılı analiz, bazı karakterlerin neden birbirine karıştırıldığını açıkladı.