Veri Bilimi Nedir?
“Veri Bilimi Nedir?” sorusunu cevaplamaya başlamadan önce depolama kapasitesinin gelişimi ve verinin önemi hakkında konuşmaya başlamak daha iyi olacaktır.
Dün izlediğim NASA astranotlarının aya çıkış serüvenini anlatan ZDF yapımı belgeselde, Apollo 11‘in ana bilgisayarının sadece 74 KB ROM (Read Only Memory) kapasitesine, yani hafızaya sahip olduğunu öğrendim. 60‘lı yılların 74 KB‘lık kapasitesini bugünün teknolojisiyle karşılaştırırsak, örneğin cebimize sığan küçük bir 128 GB‘lık akıllı telefonun kapasitesinin koskoca Apollo 11‘in hafıza kapasitesinden yaklaşık 2 milyon kat daha fazla olduğunu söyleyebiliriz. Yok artık! dediğinizi duyar gibiyim. Ama depolama teknolojisinin bu kadar geliştiğini ve daha da gelişeceğini söylemek, veri biliminin neden ortaya çıktığını anlamamıza yardımcı olacak. Bu arada, Apollo 11‘in gerçek zamanlı tüm hareketlerini kontrol etmek için uçuş yazılımını tasarlayan ekibin başında olan Margaret Hamilton hanımefendiye de, internet dünyasında belki bir kuark kadar yer bile kaplamayan bu yazımdan selamlar olsun.
Apollo 11
Bir üst paragrafda kapasite gelişimini irdeledik. İsterseniz biraz da tarihsel olarak toplanan verinin gelişimini somut rakamlarla inceleyelim.
İnsanoğlu dünyada yaşamaya başladığından beri her türlü veriyi kayıt altına almayı kendine gelenek haline getirdi. Prehistorik çağlarda insanlar topladıkları veriyi kemiklere yazarken, örneğin 20 bin sene önce üzerine veri işlenildiği düşünülen Ishango Kemiği, antik çağlarda insanlar topladıkları veriyi, bilimin de gelişmeye başlamasıyla, artık papirüse yazmaya başlamışlardır. İskenderiye kütüphanesini duymayan yoktur sanırım. Kaynaklarda, bu kütüphanede yaklaşık 400 bin el yazması eserin olduğu söyleniyor. Yeni çağa geldiğimizde, John Graunt adındaki aslında tuhafiyeci olan İngiliz abimiz, Londra‘daki ölüm arşivlerini incelemiş ve diğer taraftan da istatistik olarak insanların yaşama süresini hesaplamaya çalışmıştır. Arşiv demişken, aklıma bir de Osmanlı zamanında oluşturulan Tahrir defterleri geldi. 1400‘lü yıllardan itibaren her 30-40 senede oluşturulan Tahrir defterlerinde vergi yükümlülerinin sayısını belirlemek için istatistiksel veriler toplanırdı.
1900‘lü yıllara geldiğimizde, artık işler değişmeye başladı. İkinci dünya savaşı yıllarında transistörün bulunmasıyla gelişmeye başlayan bilgisayar teknolojisi veri depolamayı kolaylaştırdı. IBM gibi teknoloji firmaları zaten delikli kart sistemiyle veriyi işlemeye başlamışlardı. Zamanla veriyi toplayan/depolayan yazılımlar gelişti ve 90‘ların başlarında internetin dünyamıza girmesiyle veri toplama işi artık çığrından çıktı. Örneğin bu videoda gördüğünüz Google‘ın veri merkezinde, sadece bir günde milyarlarca veri işleniyor. Google‘a bağlı olan YouTube, Gmail gibi oluşumların verileri de buralarda saklanıyor. Sizin YouTube‘a yüklediğiniz videolar, yaptığınız yorumlar, Gmail‘de gönderdiğiniz e-mailler bu tarz veri merkezlerinde kayıt altında tutuluyor. Hatta herhangi bir sosyal medya platformunda verilerinizi silseniz bile, veri merkezlerinin karanlık diplerinde o verileriniz saklanıyor. Neyse, o başka bir konu!
Google‘ın Hollanda‘daki Veri Merkezi
Veri depolama tabi sadece Google, Facebook gibi büyük şirketler tarafından yapılmıyor. Küçük veya orta çaplı şirketler de kendi verilerini kendi depolama sistemlerinde, sunucularında depoluyorlar. Bu veriler bazen 1-2 MB‘lık bilgisayarlardaki Excel tablolarında saklanırken, bazen özel korunan veri odalarında sunucularda saklanıyor. Örneğin orta çaplı şirketler e-mail arşivlerini, satış rakamlarını depolarken, hastaneler MR kayıtlarını, hastaların her türlü bilgilerini bir türlü kayıt altına alıyorlar.
“İyi de kardeşim, bu kadar veriyi topladık, SSD kartlar, sunucular doldu taştı. Biz bu veri tabanlarında toplanan verilerden neden yararlanmayalım, neden onlardan analiz yapmayalım?” diye zamanında iş adamları, mühendisler kendi kendilerine sormaya başlamışlar. İşte tam da burada Veri Bilimi işin içine giriyor.
Veri Bilimi, kısaca, çeşitli teknikler kullanarak veriden yararlı ve anlamlı bilgi çıkarılmasını ifade eder. Bu teknikler bazen istatistik biliminden gelirken, bazen de matematiksel yöntemlerle oluşturulan algoritmalardan oluşur. Hele bir de Makine Öğrenmesi ve Derin Öğrenme‘den de faydalanırsa tadından yenmez.
Veri Biliminin kullanımına örnek verecek olursak; bir banka kendi müşterilerinin verilerini analiz edip, onları kategorilere ayırarak, yakın zamanda yapacağı ve belirli yaş grubuna hitap eden kampanyasının duyurusunu, sadece belirli kategoriye SMS/E-mail yoluyla gönderdiğinde maliyetten kısabilir. Ya da bir hastahane, hastanın geçmiş verilerinden bir çıkarımda bulunarak, ilerde yakalanabileceği potansiyel hastalıklara karşı önlemler alabilir ve tedavi yöntemlerini hastaya sunabilir. Veri Biliminin günümüzde kullanımıyla ilgili örnekler çoğaltılabilir. Google‘da ‚data science use cases‘ veya ‚data science applications‘ aramasını yaptığınızda değişik örnekler görebilirsiniz.
Peki Veri Bilimi nasıl ve hangi tekniklerle uygulanıyor, kullanılan araçlar neler? İsterseniz biraz da onlardan bahsedelim.
Veri Biliminde genel olarak kullanılan adımlar sırasıyla şöyle:
- Problemin belirlenmesi
- Verinin toplanması
- Verinin temizlenmesi
- Keşfedici Veri Analizi ( Exploratory Data Analysis)
- Öznitelik seçimi
- Modelleme
- Model testi
- Modelin uygulanması
Ve Veri Biliminde yaygın olarak kullanılan programlama dilleri/araçlar:
- Python
- R
- Matlab
- SQL
- SPSS
- Excel (Evet bildiğimiz Excel)
Veri Bilimi için yukarıda bahsettiğim adımlar, diller ve araçlar içinde de belki yüzlerce kavramsal tanım ve detay var. Onlarla alakalı yazıları ilerleyen zamanlarda sayfamda bulabilirsiniz. Bunların dışında, Makine Öğrenmesi ve Derin Öğrenme de başlı başına detaylıca incelenmesi gereken iki başlık.
Şimdilik bu kadar.
Sağlıcakla kalın!