EN / TR
Özge Karasu Özge Karasu

Merak ederim, sorgularım, yazarım.

Makine Öğrenmesi ile Gen Ekspresyonu Kümeleme ve Görselleştirme

15.05.2021

Genel Bakış

Bu proje, makine öğrenmesi yöntemlerinin kanserle ilişkili gen ekspresyonu verilerinde gizli biyolojik örüntüleri nasıl ortaya çıkarabileceğini araştırmaktadır.
Amaç, benzer gen ekspresyon profillerine sahip hastaları kümelere ayırmak ve yüksek boyutlu veriyi anlamlı biçimde görselleştirmektir.

Amaçlar

  • K-Means kümeleme algoritmasını kullanarak benzer gen ekspresyonuna sahip hasta gruplarını belirlemek.
  • Temel Bileşen Analizi (PCA) ve t-dağılımlı Stokastik Komşu Gömme (t-SNE) yöntemleriyle boyut indirgeme ve görselleştirme yapmak.
  • Elde edilen kümeleri gerçek kanser alt türü etiketleriyle karşılaştırarak biyolojik anlamlılığı değerlendirmek.

Yöntem

  1. Veri Hazırlığı:
    Veri seti, farklı kanser hastalarına ait binlerce genin ekspresyon değerlerinden oluşmaktadır.
    Ön işleme aşamalarında normalizasyon, eksik değerlerin giderilmesi ve varyans dengeleme için log dönüşümü uygulanmıştır.

  2. Boyut İndirgeme:

    • PCA, gen ekspresyonlarındaki varyansın büyük kısmını koruyarak boyutu azaltmak için kullanılmıştır.
    • t-SNE, doğrusal olmayan yapıları ortaya çıkarmak ve kümeler arası sınırları iki boyutta daha net göstermek amacıyla uygulanmıştır.
  3. Kümeleme Analizi:

    • K-Means algoritması farklı k değerleriyle çalıştırılarak en uygun küme sayısı araştırılmıştır.
    • Silhouette Skoru ve WCSS (Within-Cluster Sum of Squares) metrikleriyle model performansı değerlendirilmiştir.
  4. Yorumlama:

    • Elde edilen kümeler, gerçek biyolojik etiketlerle karşılaştırılarak hangi alt türlerle örtüştüğü analiz edilmiştir.
    • Görselleştirmeler, gözetimsiz modellerin biyolojik açıdan anlamlı yapıları yeniden keşfedebileceğini göstermiştir.

Bulgular

  • PCA, ilk birkaç bileşende toplam varyansın %85’inden fazlasını korumuştur.
  • t-SNE, kanser alt türlerini temsil eden gruplar arasında belirgin ayrışmalar ortaya koymuştur.
  • Kümeler, gerçek hasta kategorileriyle güçlü biçimde örtüşmüştür; bu da gözetimsiz yöntemlerin gizli biyolojik sinyalleri yakalayabildiğini göstermektedir.

Kullanılan Teknolojiler

  • Diller: Python
  • Kütüphaneler: Pandas, NumPy, scikit-learn, Matplotlib, Seaborn
  • Teknikler: K-Means, PCA, t-SNE, Silhouette Analizi

Değerlendirme

Bu proje, biyomedikal verilerde makine öğrenmesinin potansiyelini anlamamı sağladı.
Yüksek boyutlu biyolojik verilerin nasıl yorumlanabileceğini öğrendim ve yorumlanabilir modeller ile veri temelli keşif arasındaki ilişkiye olan ilgimi güçlendirdi.