Veri Çeşitleri Nelerdir?

Daha önceki yazımızda Veri Bilimi‘ne giriş yapmıştık. Veri Bilimi‘nin temel süreçlerinden ve kullanılabilecek araçlardan bahsetmiştik. Peki bu Veri Bilimi‘nin adında geçen „Veri“ nedir? Verinin çeşitleri nelerdir? Neden veri çeşitlerini bilmek bize fayda sağlar? Veri ile alakalı çeşitli konseptler nelerdir? Gelin bu soruların cevaplarını sırasıyla vermeye çalışalım.

Sorulardan birine önceden cevap vermek daha iyi olacak. Veri çeşitlerini bilmek, kendi problemlerimizde uygulayacağımız Veri Bilimi yöntemlerini seçmede çok işimize yarayacak. Ayrıca, elimizde olan verinin çeşitlerini anlamak, seçeceğimiz yöntemi uygulamadan önce kullanacağımız Exploratory Data Analysis‘de bize kolaylıklar getirecek.

İlk önce verinin genel tanımı ile başlayalım. Teorik bir tanım yapmak yerine, benzetme yöntemiyle anlatacak olursak, kısaca, veri arabanın mazotu gibidir. Nasıl arabanın yakıtı olmadığında araba harekete geçmezse, elimizde veri olmadan da Veri Bilimi ile alakalı teknikleri uygulayamayız. Bazen sadece verinin olması da yetmez, kullanacağımız yöntemden çıkan sonucu daha anlamlı kılmak için, daha fazla veriye ihtiyacımız olur.

Verinin kısa tanımından sonra, farklı veri çeşitlerini başlıklar altında verelim.

Nicel Veri – Quantitative Data

Nicel veri, genelleme yaparsak nümerik veri, en çok karşımıza çıkan veri tipi aslında. „Ne kadar?“, „Ne sıklıkla?“ gibi soruların cevaplarında verilen sayısal verilerdir. Oturduğumuz evin metrekaresini „120 metrekare“ olarak, haftada çalışılan saati de „40“ saat olarak söylediğimizde, nicel veri ifade etmiş oluruz. Bu tarz veri tiplerini bize gelen veya Veri Bilimi yöntemlerinde alıştırma yapmak için internette bulduğumuz veri setlerinde sıklıkla görebiliriz.

Nicel veriye başka örnekler de verecek olursak;

  • Sıcaklık değerleri
  • Tartının üstüne çıktığımızda oluşan ağırlık verisi
  • Girdiğimiz sınavlardan aldığımız puanlar

Peki Nicel verinin kendi altındaki türleri neler diye soracak olursak, iki tip nicel veri sınıflandırması yapabiliriz.

Ayrık veri – Discrete Data

Aslında ingilizce terimdeki „Discrete“ kelimesinden de anlaşılabileceği gibi, sınırlı veri olarak düşünebiliriz. Genellikle tam sayılarla ifade edilir. Örneğin, ayakkabı numaramızın 43 olması gibi. Ayakkabı numarası zaman içinde fazla değişkenlik göstermez. Ayrık Veri‘nin diğer özellikleri; nümerik, sayılabilen ve negatif olmayan değerler alması. Ayrık veriler genelde bar, pasta gibi grafik türlerinde gösterilir.

Sürekli veri – Continuous Data

Ayrık verinin tam tersi olarak düşünebiliriz. Verinin alacağı değerler, iki nokta arasında değişkenlik gösterebilir. Hava sıcaklığı, bir projeyi bitirmek için geçen süre sürekli veriye örnek gösterilebilir. Sürekli verinin diğer özellikleri; sayılamayan, ayrıştırılabilen, ölçülebilen veri olması. Sürekli veriler genelde histogram veya çizgi grafiklerinde gösterilir.

Nitel Veri -Qualitative Data

Kategorik veri olarak da adlandırabileceğimiz nitel veri, verinin karakteristiğini ve niteliğini açıklar. Nitel veri, genellikle gözlemler, bire bir mülakatlar veya anketler gibi yöntemlerle toplanır. Nicel verinin aksine, nitel veriler sayısal verilerle açıklanmaz. Nitel veriye örnek verecek olursak; bir restoranda sunulan yemeklerin kalitesini anlamak için müşterilerden gelen anket verileri, insanların saç renklerinin genel olarak kahverengi, siyah, sarı veya kızıl renkte kategorik olarak verilmesi, cinsiyet ( kadın-erkek), hangi ülkenin vatandaşı olunduğu gibi veriler.

Nominal

Sayısal veri almayan değişkenleri etiketlemek için kullanılan veri türüdür. Nominal veriler kendi arasında sıralamaya giremez. Nominal veriye örnek olarak cinsiyet türüne verilen cevabı söyleyebiliriz.

Ordinal

Nominal verinin kategorilendirilebilen hali olarak düşünebiliriz. Örnek olarak; ilkokuldan üniversite eğitimine kadar verilen eğitim durumunu belirten cevapları verebiliriz.

Yapılarına göre verileri incelersek, 3 tarzda veri tipini görebiliriz.

Yapılandırılmış Veri – Structured Data: Adreslendirilebilen veri tipiyle oluşturulan veri tipine denir. Belirli bir formata göre veri tabanlarında tutulurlar. Satır ve sütunlardan oluşan, ilişkisel tabloların olduğu bir SQL tablosunu yapılandırılmış veri olarak düşünebiliriz.

Yarı Yapılandırılmış Veri – Semi-Structured Data: Format olarak belirli yapılarda tutulan verilerdir. Yapılandırılmış verideki gibi ilişkisel veri tabanlarında saklanmazlar. XML dosyasında tutulan veriyi yarı yapılandırılmış veri olarak örneklendirebiliriz.

Yapılandırılmamış Veri – Unstructured Data: Önceden belirlenmiş belirli bir yapıda olmayan ve ilişkisel veri tabanlarına uymayan veri tipine denir. Text dosyaları, resimler, ses kayıtları yapılandırılmamış veriye örnek olarak gösterebilir.

Yapılarına göre veri tiplerinde bahsi geçen ilişkisel veriyi, şimdilik, tabloların kendi arasında belirli özelliklere göre bağlanması olarak düşünebiliriz. Özellikle Power BI gibi veri görselleştirme programlarında, veriyi arka planda şişirmeden saklamak için tabloları birbirine bağlamak, hem grafiklerinizin daha dinamik çalışmasını hem de daha az veri tutarak kapasiteden tasarruf etmenizi sağlar. İlişkisel veri tabanlarını ilerleyen zamanlarda blog yazısı olarak size sunmayı düşünüyorum.

Tüm bunların dışında, veriyi çeşitlerine bölmeden önce, veriyi geleneksel ve big data olarak da inceleyebiliriz. İsimlerinden size çağrışım yapsa da, ikisi arasındaki bazı farkları bilmek bize uygulama yöntemlerinde kolaylık sağlayacaktır. Bu iki veri çeşitlendirmesi hakkında da yazı yazmak istiyorum.

Takipte kalın.

Leave a Reply