Yapay zeka (YZ) sistemleri, insan benzeri kararlar alabilen, öğrenebilen ve gelişebilen algoritmalardır. Bu sistemlerin başarısı büyük ölçüde beslendikleri veriye bağlıdır. Kötü veri ile çalışan bir yapay zeka, ne kadar güçlü bir algoritmaya sahip olursa olsun, hatalı ya da önyargılı sonuçlar üretme riskini taşır. Bu yazıda, “Garbage In, Garbage Out (GIGO)” kavramı üzerinden başlayarak, veri kalitesi, önyargılar, ön işleme (preprocessing) ve genelleme (generalization) gibi konulara değinecek, örneklerle bu başlıkları açıklayacağız.
1. GIGO (Garbage In, Garbage Out) Nedir?
Tanım: GIGO, bilgisayar biliminin temel prensiplerinden biridir. Anlamı şudur: Eğer sisteme hatalı, eksik veya kalitesiz veri girerseniz, sistemin çıktısı da aynı derecede hatalı olur.
Örnek: Eğer bir kredi değerlendirme yapay zekasına hatalı gelir verileri sağlarsanız, bu sistem kredi başvurularını yanlış şekilde reddedebilir veya onaylayabilir.
Neden Önemlidir? Çünkü yapay zeka, çevresini veri yoluyla “gözlemler”. Gözlemleri bozuk olan bir sistem, gerçek dünyayı doğru şekilde modelleyemez.
2. Veri Kalitesi
Yüksek kaliteli veriler, yapay zeka projelerinin temelidir. Veri kalitesini belirleyen unsurlar:
a. Doğruluk
Veriler gerçek durumu yansıtmalı. Örneğin, bir müşterinin yaşı 35 ise veri kümesinde 25 olarak geçmemeli.
b. Tutarlılık
Aynı veriler sistemde farklı yerlerde farklı şekilde bulunmamalı. Bir müşterinin ismi bir yerde “Ahmet Yılmaz”, başka bir yerde “A. Yılmaz” olarak geçmemeli.
c. Eksiksizlik
Veriler eksik olmamalı. Örneğin, bir hastanın teşhis bilgisi yoksa, bu eksiklik algoritmanın sonuçlarını etkiler.
d. Güncellik
Veriler güncel olmalı. Eski veriler bazı modellerin günümüz şartlarında hatalı tahminler yapmasına neden olabilir.
3. Veri Önyargısı (Bias)
YZ sistemleri, verideki önyargılardan etkilenebilir. Eğer veri yalnızca belirli bir grubu temsil ediyorsa, model bu gruba göre eğitilir ve diğerlerini dışlar.
Örnek: Sadece erkek sesleriyle eğitilmiş bir ses tanıma sistemi, kadın seslerini anlamakta zorlanabilir.
Çözüm: Veriyi çeşitlendirmek ve temsil adaletini sağlamak gerekir. Önyargı tespiti için özel test kümeleri oluşturulabilir.
4. Veri Ön İşleme (Preprocessing)
Ham veriler genellikle doğrudan kullanılmaya uygun değildir. Ön işleme sürecinde:
- Eksik veriler doldurulur veya silinir
- Kategorik veriler sayısal forma dönüştürülür (örneğin, “erkek” ve “kadın” gibi)
- Aykırı değerler tespit edilip düzeltilir
- Veriler ölçeklendirilir (özellikle makine öğrenmesi algoritmaları için)
Neden önemli? Ön işleme yapılmazsa, model gereksiz karmaşıklıkla karşılaşır ve genelleme yeteneği düşer.
5. Genelleme (Generalization)
Bir yapay zeka sisteminin yalnızca eğitildiği veriyi değil, daha önce görmediği yeni verileri de doğru şekilde işleyebilmesi gerekir. Bu yetenek, genelleme olarak adlandırılır.
Overfitting (aşırı öğrenme): Model eğitildiği verileri ezberler ve yeni verilerde başarısız olur.
Underfitting (yetersiz öğrenme): Model ne eğitim verisini ne de yeni verileri iyi kavrayamaz.
İyi bir model, bu iki uç nokta arasında dengeli bir şekilde yer almalı.
6. Verinin Yaşam Döngüsü
Veri, statik bir varlık değildir. Aşağıdaki adımlarla sürekli bir döngü içerisindedir:
- Toplama: Sensörler, kullanıcı formları, log dosyaları vb. kaynaklardan veri toplanır.
- Temizleme: Eksikler giderilir, hatalı veriler ayıklanır.
- Etiketleme: Gerekirse veriler sınıflandırılır.
- Depolama: Güvenli ve erişilebilir biçimde saklanır.
- Eğitim: Yapay zeka modeli bu verilerle eğitilir.
- İzleme: Modelin çıktıları takip edilir.
- Güncelleme: Yeni verilerle sistem güncellenir.
Veri, yapay zeka sistemlerinin “yakıtı” gibidir. Ne kadar kaliteli, tarafsız ve anlamlı verilerle çalışırsak, o kadar sağlıklı sonuçlar alırız. GIGO prensibini unutmadan, yapay zeka projelerinde verinin toplanmasından temizlenmesine kadar her aşamasında titizlikle çalışmalıyız.
Veri bilimi, sadece sayılarla uğraşmak değildir; bu sayıların hangi hikâyeyi anlattığını anlamak da en az o kadar önemlidir.
Sözlük: Teknik Terimler
- GIGO (Garbage In, Garbage Out): Hatalı veriyle hatalı sonuçlar üreten sistem davranışını anlatır.
- Preprocessing (Ön İşleme): Verilerin analiz veya eğitim için hazır hale getirilme süreci.
- Bias (Önyargı): Verideki temsil dengesizlikleri sonucu modelin belirli yönlere kayması.
- Generalization (Genelleme): Modelin yeni veriler üzerinde başarılı tahmin yapabilme yeteneği.
- Overfitting: Modelin eğitim verisine fazla uyum sağlaması, ezberlemesi.
- Underfitting: Modelin yeterince öğrenememesi.