Proje Özeti
Bu proje, tweetleri pozitif veya negatif olarak sınıflandırmak için Destek Vektör Makineleri (SVM) kullanan bir duygu analizi hattı geliştirmeye odaklandı. Görev, gürültülü metin verisinin ön işlenmesi, anlamlı özelliklerin çıkarılması ve model performansının çapraz doğrulama ve hata analizi ile değerlendirilmesini içerdi.
Kullanılan Teknikler
Ön İşleme:
- NLTK ile tokenizasyon
- Küçük harfe çevirme, noktalama işaretlerinin silinmesi, durak kelime çıkarımı
- Lemmatizasyon ve emoji işleme
Özellik Çıkarma:
- Bag-of-Words ve TF-IDF vektörleştirme
- Kelime frekansı ve ikili varlık testleri
Model:
- Destek Vektör Makineleri (scikit-learn LinearSVC)
- C değerleri üzerinde grid search
- 10 katlı çapraz doğrulama
Değerlendirme:
- Doğruluk, Kesinlik, Duyarlılık, F1-skora
- Karmaşıklık matrisi
- Manuel hata incelemesi (Yanlış Pozitifler/Negatifler)
Sonuçlar
- En iyi performans TF-IDF özellikleri ve optimize edilmiş SVM parametreleriyle elde edildi.
- Gelişmiş ön işleme ve özellik ayarlamaları sonrası F1-skoru ~0.76’dan ~0.83’e yükseldi.
- Model, aşırı öğrenme olmadan iyi genelleme sağladı.
