Python programlama dilinde Pandas ve Numpy kütüphanesi verinin işlenmesi ile ilgili işlemlerde çok sık kullanılır. Numpy kütüphanesinin eksik kaldığı yerlerde bir nevi devreye Pandas kütüphanesi girer. Bu yazımızda Pandas kütüphanesinin Csv dosya üzerinde kullanımına değineceğiz.
Öncelikle Pandas kütüphanesini import etmemiz gerekiyor. Aşağıdaki kod bloğunda pandas kütüphanesini ekledik ve artık ‘pd’ ismiyle bu kütüphanenin kullanılacağını belirttik.
import pandas as pd
Kullanacağımız veri kümesi, 2019 itibarıyla Netflix’te bulunan dizi ve filmlerden oluşmaktadır. Veri kümesi, Netflix arama motoru olan Flixable’dan toplanmıştır. Kaggle web sitesinden alınmıştır. Veri setine ulaşmak için tıklayınız.
Veri seti dosyasından verileri Pandas kütüphanesi yardımıyla öncelikle DataFrame olarak okumamız gerekmektedir. Csv türü dosyalardan veri okumak için aşağıdaki kod bloğunu kullanabiliriz.
df=pd.read_csv('/kaggle/input/netflix-shows/netflix_titles.csv')
Artık csv dosyada bulunan verileri df isimli DataFrame üzerine aktardık. İşlemlerimizi df ile yapabiliriz. df üzerinde bulunan verilere şöyle genel olarak bakmak istersek. İlk 5 kaydın neler olduğunu, veri seti üzerinde hangi bilgiler bulunduğunu görebiliriz. Bunun için kullanacağımız kod;
df.head()
Bu komut yardımıyla veri setimizde hangi kolonların olduğunu ve neler içerdiği hakkında bilgi sahibi olmuş olduk. Burada görüldüğü gibi ürünün türü, yönetmeni, ülkesi,eklenme tarihi, süresi vb. bilgiler bulunmakta.
Aynı bilgileri istersek tail komutunu kullanarakta elde edebiliriz. tail komutu ise veri setinin sonundan bize örneklem sunmaktadır.
df.tail()
Verinin geneli hakkında hangi sütunlardan oluşmaktadır, boş değerler varmı vb. bilgileri elde etmek için info() komutunu kullanmamız gerekmektedir.
Yukarıda görselde görüldüğü üzere veri setimizde toplam 7787 adet kayıt bulunmaktadır. 12 farklı alan vardır. Örnek olarak ‘director’ alanında ise 7787 kayıdın 5398 adetinde veri bulunmaktadır. Yani bu alanda boş veriler bulunmaktadır. Aynı şekilde ‘country’ ve ‘cast’ alanlarında da boşluklar olduğu gözlenmektedir.
Veriler üzerinde genel verilere ulaşabileceğimiz başka bir komut ise describe komutudur. Sayısal verilerin(string verileri de istenirse görülebilmekte) istatistiksel değerlerini bize sunmaktadır. Sayısal değer olarak sadece release_year bilgisi bulunduğu için bu alan ile ilgili veriler gösterilmektedir.
df.describe()
Eğer biz veri setimizde toplam kaç adet boşluk olduğunu görmek istersek aşağıdaki komutu kullanabiliriz. Görselde görüldüğü gibi hangi alanda toplam kaç adet boş veri var bunun listesini görmüş olduk.
df.isnull().sum()
Bu alanlardan analizlerimizde kullanmayacağımız örnek olarak eklenme tarihi, yönetmen gibi verileri silmek istersek drop komutu yardımıyla bu işlemi yapabiliriz.
df.drop(['director', 'date_added'], axis=1, inplace=True)
Burada df içerisinden sutunları silmek için axis özelliğini ‘1’ olarak ayarlamamız gerekmektedir. Varsayılan değeri ‘0’ dır. inplace parametresi ise yapılan değişikliğin df dataframe’i üzerinde kalıcı olarak uygulanmasını sağlar. Yukarıdaki kod çalıştırıldığında df’in son hali aşağıdaki olmaktadır.
İlk yazımızda bazı temel işlemler üzerine uygulama örneklerine baktık. Bir sonraki yazımızda aynı veri seti üzerinden farklı senaryolara bakacağız.