Proje Özeti
Bu projede, BBC dizisi EastEnders’daki diyalog verilerinde karakter benzerliğini ölçmek için dağıtımsal anlambilim yöntemleri kullanıldı. Her karakterin konuşmaları birer belge vektörüne dönüştürüldü ve benzerlik, bilgi getirimi (IR) tarzı tekniklerle değerlendirildi.
Kullanılan Teknikler
Veri Hazırlama:
- Eğitim verisinden karakter başına en fazla 300 replik çıkarıldı
- Doğrulama ve test setlerinden en fazla 50 replik alındı
Ön İşleme:
- Tokenizasyon, küçük harfe çevirme, durak kelime çıkarımı, noktalama işaretlerinin silinmesi
- POS etiketleme ve sahne metaverileri ile bağlamsal cümle seçimi eklendi
Özellik Mühendisliği:
- Kelime torbası (bag-of-words) ve TF-IDF vektörleri
- N-gram (1–3), belge frekansı filtreleme
- Sözlüksel geliştirme için harici kaynaklar
Değerlendirme:
- En yakın komşu sıralaması için kosinüs benzerliği
- Metrikler: Ortalama Sıra, Doğruluk, Hit@1, Hit@3
- Görselleştirmeler: Isı haritaları ve benzerlik matrisleri
Sonuçlar
- Doğrulama setinde ortalama sıra yaklaşık 1.7, doğruluk ise 0.62’ye ulaştı.
- TF-IDF + bağlamsal sahne bilgisi en iyi anlamsal ayrışmayı sağladı.
- Ayrıntılı analiz, bazı karakterlerin neden birbirine karıştırıldığını açıkladı.
