Sevgili okurlar hepinize tekrardan merhabalar,
Bugün sizlere veri bilimi için önemli olan bazı teori ve dağılımlardan bahsetmeye çalışacağım.
Bahsedeceğim konular “Örnek Teorisi, Betimsel İstatistik, olacak.
ÖRNEK TEORİSİ:
Anakütle parametrelerinin örnek değerleri(örnek istatistikleri) yardımıyla tahmin edilmesine imkan sağlamak modern istatistiğin önemli bir görevidir.(http://debis.deu.edu.tr/userweb//hamdi.emec/%c4%b0statistik-2012-G%c3%bcz/7_%c3%96rnekleme%20ve%20Tahmin%20Teorisi.pdf)
İnternet üzerinden araştırdığımız zaman böyle bir tanım görmek mümkün. Peki bu tanım bize ne anlatıyor ? Python ile bu teoriyi nasıl çalışabiliriz ? Ona bir göz atalım.
Burada nüfüsun ortalama yaşını bulmayı hedeflediğimiz bir veri seti oluşturduğumuzu varsayalım. 5000 kişinin yaşlarını öğrenip kayıt ettiğimizi düşünüyoruz.
Burada öncelikli olarak choice ve seed metodunu anlatmak istiyorum. Choice metodu ingilizcesinden anlaşıldığı üzere seçme işlemini yapıyor. Fakat bizim elimizde 5000 adet veri olduğu için her bu ornek değişkenini çağırdığımızda farklı sonuclar gelmemesi için yani bir kere çekilen 100 adet verinin sabit kalması için seed metodunu kullanıyoruz.
Bu verileri değişkenlere atadıktan sonra mean() metodu ile ortalamalarını alıyoruz ve bu ortalamaların birbirine çok yakın olduğunu görüyoruz. Buradan seçtiğimiz örneklem kitlesinin ortalamaya yakın olduğunu ve başarılı bir iş yaptığımızı söylemek mümkün.
Fakat bu ortalamaları tek bir örneklem kitlesi ile hesaplamak biraz riskli olabilir. Biz bu örneklem sayılarını arttırıp daha kesin sonuçlar elde etmek istiyoruz.
Daha kesin bir sonuç elde etmek için birden fazla (ben burada 10 adet aldım) örneklem seçip bunların ortalamalarını toplayıp örneklem sayısına böldüğümüzde Yukarıda 42.7 olarak bulduğumuz değeri birden fazla örnekle kullanarak 41.04 gibi bir değere indirebiliyoruz.
Bu sayede 5000 kişilik veriyi kullanmak yerine belirli gruplar halinde belirlediğimiz örneklemleri hesaba katında ana kütleye daha yakın sonuçlar bulup uğraştığımız işin sonucunu daha iyi kesin bir şekilde ortaya koyabiliriz.
BETİMSEL İSTATİSTİK:
Bu konuyu anlatırken kullanacağım dataset ‘Seaborn’ kütüphanesi ile birlikte gelen ‘tips’ dataseti olacak.
Daha öncelerde bu veri setini describe() metodu ile bakış yapmıştık.
Her zaman olduğu gibi daha fazlasına ihtiyaç duyduğumuz zaman ne yapacağız? Örnek olarak ben bu veri setinin Standart hatası,aralığı,varyansı,kovaryansı gibi bazı değerleri istiyorsam ne yapmam gerekiyor ?
Bu verileri bulmak için researchpy isimli kütüphaneyi komut istemine !pip install researchpy yazarak indiriyoruz.
Daha sonrasında summary_cont (sayısal değişkenler) metodu ile yukarıda görmek istediğimiz değişkenlerden aralık ve standart hata değerlerini görebiliyoruz
summary_cat metoduyla veri setimizde gördüğünüz gruplanabilecek işlemleri görmemizi daha kolaylaştıran bir metot.
Ekstra olarak kovaryans ve korelasyon bilgilerine seçtiğimiz değişkenlerin sonuna gerekli metotları(.corr ve .cov) yazarak kolay şekilde hesaplamamız mümkün.