Aykırı Değer Temizleme Yöntemleri: Konut Verisi örneği

DeepmineAI olarak, Hepsiemlak platformundan İstanbul’a ait 28.621 konut verisini kazıyarak kapsamlı bir veri seti oluşturduk. Veri temizleme süreci, EDA (Keşifsel Veri Analizi) ve encoding işlemlerini daha önce yaptık. Bu yazıda, konut verisetinden aykırı değer temizleme yöntemleri konusunu işleyeceğiz. Verilerin nasıl kazındığını öğrenmek isterseniz tklayınız.

Çalışmanın verisetini ve kodlarını GitHub’dan indirmek için tıklayınız…

Aykırı Değer Temizleme Yöntemleri Niçin İhtiyaç Duyarız?

Aykırı değerleri temizlememizin temel nedeni, analizlerimizin ve modellerimizin doğruluğunu artırmaktır. Outlier değerler, istatistiksel hesaplamaları ve makine öğrenmesi modellerini yanıltarak hatalı tahminlere yol açabilir. Örneğin, bir veri setindeki uç değerler, ortalama ve standart sapma gibi temel istatistikleri çarpıtabilir. Ayrıca, aşırı uç noktalar makine öğrenmesi modellerinin aşırı uyum (overfitting) göstermesine neden olabilir. Bu durum, modelin bu sıra dışı verilere gereğinden fazla uyum sağlayarak genelleme yeteneğini kaybedebilir.

Aşağıdaki resimde verisetindeki aykırı değerleri işaretledik. 20m2 lik bir ev de 300 m2 nin üstündeki evlerde çok karşılaşmadığımız evlerdir. Bunaların fiyatını biz çok tahmin edemeyeceğimiz için makine öğrenmeside edemez.

Özellikle fiyat tahmini gibi uygulamalarda, aykırı veriler, modelin doğruluğunu ciddi şekilde etkileyebilir. Bu yüzden, uygun temizleme yöntemleri kullanılarak aykırı değerleri verisetinden arındırmak gerekir.

Aykırı Değer Temizleme Yöntemleri ve Sonuçları

Aykırı değerler, istatistiksel olarak olağan dışı görünen veri noktalarıdır. Bu değerler analizlerimizi olumsuz etkileyebilir. Bu nedenle, 8 farklı yöntem kullanarak aykırı değerleri temizledik ve her yöntemin sonuçlarını analiz ettik. En iyi yöntemi belirleyerek çalışmamıza devam edeceğiz.

Aşağıdaki tabloda, uyguladığımız Aykırı Değer Temizleme Yöntemleri için R² skoru ve temizlendikten sonrasında kalan veri sayısını görebilirsiniz.

Yöntem	R² Skoru	Veri Sayısı
Z-Score (Standart Sapma)	0.8391	27.089
IQR (Çeyrekler Aralığı)	0.8501	26.630
Winsorization (Değerleri Kırpma)	0.8258	26.630
Isolation Forest	0.8279	27.190
Local Outlier Factor (LOF)	0.8508	27.190
DBSCAN (Yoğunluk Bazlı Kümeleme)	0.8835	22.075
Hibrid Yöntem (LOF + Manuel Temizleme)	0.8875	23.724
Hibrid Yöntem (IQR + Manuel Temizleme)	0.8932	24.129

Yöntemlerin Değerlendirilmesi

1. Z-Score ve IQR (Çeyrekler Aralığı Yöntemi)

Bu iki geleneksel istatistiksel yöntem, aykırı değerleri belirlemek için yaygın olarak kullanılır. Z-Score yöntemi, verilerin ortalamadan kaç standart sapma uzaklıkta olduğunu analiz ederek uç değerleri belirler. Ancak, bu yöntemin normal dağılıma duyarlı olması, sonuçlarının değişken olmasına neden olabilir. IQR yöntemi ise veriyi çeyrekler aralığında değerlendirerek aykırı değerleri belirler. Sonuçlara göre, IQR yöntemi Z-Score’a kıyasla daha yüksek bir R² skoru elde etti (0.8501 vs. 0.8391), bu da veri temizleme açısından daha etkili olduğunu gösteriyor.

2. Winsorization (Değerleri Kırpma)

Bu yöntem, aykırı değerleri tamamen çıkarmak yerine belirlenen eşik değerlerine yuvarlayarak sınırlandırır. Bu nedenle veri kaybını en aza indirmeye çalışırken, uç değerlerin etkisini de azaltır. Ancak, bu yöntemle elde edilen R² skoru (0.8258), doğrudan aykırı değerleri kaldıran yöntemlere kıyasla daha düşük kaldı.

3. Isolation Forest ve LOF (Yerel Aykırı Değer Faktörü)

Bu iki yöntem, makine öğrenmesi tabanlı yaklaşımlardandır. Bu yöntemler, aykırı değerleri tespit etmek için veri noktalarının birbirleriyle olan ilişkilerini analiz eder. Isolation Forest, veriyi ağaç yapılarına bölerek anormal noktaları izoleetmektedir. LOF yöntemi ise veri noktalarının komşularına göre yoğunluğunu ölçerek aykırı değerleri belirler. LOF yöntemi, Isolation Forest’a kıyasla daha yüksek bir R² skoru elde etti (0.8508 vs. 0.8279).

4. DBSCAN (Yoğunluk Bazlı Kümeleme Yöntemi)

DBSCAN, yoğunluk bazlı kümeleme yaparak düşük yoğunluklu bölgelerdeki noktaları aykırı olarak belirler. Bu yöntemle elde edilen R² skoru oldukça yüksekti (0.8835). Ancak temizleme sonrası veri sayısında ciddi bir düşüş yaşandı (22.075 veri kaldı). Yani, fazla miktarda veri kaybı yaşansa da modelin doğruluk seviyesi yükseldi. Ancak bu tür bir veri kaybı, modelin genelleme yeteneğini olumsuz etkileyebidiği için tercih etmedik.

5. Hibrid Yöntemler (LOF + Manuel Temizleme, IQR + Manuel Temizleme)

Bu yöntemler, istatistiksel ve makine öğrenmesi tabanlı aykırı değer tespit yöntemlerini manuel inceleme adımlarıyla birleştirerek uygulanmıştır. Manuel temizleme aşamasında, veri dağılımı ve aşırı uç noktalar incelenerek ek düzeltmeler yapılmıştır.

LOF + Manuel Temizleme yöntemi, R² skorunu 0.8875’e çıkarmış ve veri kaybını orta seviyede tutmuştur (23.724 veri kaldı).
IQR + Manuel Temizleme yöntemi ise en iyi sonucu vermiştir; R² skoru 0.8932’ye ulaşmış ve 24.129 veri korunmuştur.

Sonuç ve En İyi Yöntem Seçimi

En yüksek R² skoru 0.8932 ile IQR + Manuel Temizleme yöntemi elde etti. Bu yöntem, veri setini daha fazla bozmadan en iyi şekilde aykırı değerlerden arındırdığı için çalışmamıza bu yöntem ile devam edeceğiz.

Bu analiz, veri biliminde aykırı değer temizleme yöntemlerinin nasıl performans gösterdiğini anlamamıza yardımcı oldu. Siz de veri setinizde benzer yöntemleri deneyerek en iyi sonucu elde edebilirsiniz! 🚀

Eğer siz de aykırı değer kazıma, analiz veya iş birliği fırsatları hakkında daha fazla bilgi almak isterseniz, bizimle iletişime geçmekten çekinmeyin.

Birlikte, verinin gücünü kullanarak yeni fırsatlar yaratabiliriz.