Aykırı Değerler Nasıl Tespit Edilir: 10 Adım (Resimlerle)

İçindekiler:

Aykırı Değerler Nasıl Tespit Edilir: 10 Adım (Resimlerle)
Aykırı Değerler Nasıl Tespit Edilir: 10 Adım (Resimlerle)

Video: Aykırı Değerler Nasıl Tespit Edilir: 10 Adım (Resimlerle)

Video: Aykırı Değerler Nasıl Tespit Edilir: 10 Adım (Resimlerle)
Video: Ayakkabı Tasarla Para Kazan! (Ayakkabı Satarak Dolar Kazan!) 2024, Mayıs
Anonim

İstatistikte, bir aykırı değer veya "aykırı değer", bir örnek veya veri kümesi içindeki herhangi bir diğer veriden çok uzakta olan bir veridir (veri kümesine veri denir). Çoğu zaman, bir veri setindeki bir aykırı değer, istatistikçiye alınan ölçümlerde bir anormallik veya deneysel hata konusunda bir uyarı görevi görebilir ve bu da istatistikçinin veri setinden aykırı değeri kaldırmasına neden olabilir. İstatistikçi veri setinden aykırı değerleri çıkarırsa, çalışmadan çıkarılan sonuçlar çok farklı olabilir. Bu nedenle, aykırı değerlerin nasıl hesaplanacağını ve analiz edileceğini bilmek, istatistiksel bir veri setinin doğru anlaşılmasını sağlamak için çok önemlidir.

Adım

Aykırı Değerleri Hesapla Adım 1
Aykırı Değerleri Hesapla Adım 1

Adım 1. Potansiyel olarak aykırı değerlerin nasıl tanımlanacağını öğrenin

Veri kümesinden aykırı değerlerin çıkarılıp çıkarılmayacağına karar vermeden önce, elbette hangi verilerin aykırı değer olma potansiyeline sahip olduğunu belirlememiz gerekir. Genel olarak aykırı değer, bir veri kümesindeki diğer verilerden çok uzakta olan bir veridir; başka bir deyişle, aykırı değer diğer verilerin "dışındadır". Bir veri tablosunda veya (özellikle) bir grafikte aykırı değerleri tespit etmek genellikle kolaydır. Bir veri kümesi bir grafikle görsel olarak açıklanırsa, aykırı veri diğer verilerden "çok uzak" olarak görünecektir. Örneğin, bir veri setindeki verilerin çoğu düz bir çizgi oluşturuyorsa, aykırı veri makul olarak bu çizgiyi oluşturuyor olarak yorumlanmayacaktır.

Bir odadaki 12 farklı nesnenin sıcaklıklarını temsil eden bir dizi veriye bakalım. 11 nesnenin sıcaklığı yaklaşık 70 Fahrenheit (21 santigrat derece), ancak 12. nesne olan bir fırının sıcaklığı 300 Fahrenheit (150 santigrat derece) ise, fırın sıcaklığının çok muhtemel olduğu hemen görülebilir. bir aykırı

Aykırı Değerleri Hesapla Adım 2
Aykırı Değerleri Hesapla Adım 2

Adım 2. Verileri en düşükten en yükseğe bir dizi veri içinde düzenleyin

Bir veri setinde aykırı değerleri hesaplamanın ilk adımı, o veri setinin medyanını (orta değer) bulmaktır. Bir veri setindeki veriler en küçükten en büyüğe doğru düzenlenirse bu görev çok basit hale gelir. Bu nedenle, devam etmeden önce, verileri böyle bir veri kümesinde düzenleyin.

Yukarıdaki örneğe devam edelim. Bu, bir odadaki çeşitli nesnelerin sıcaklıklarını temsil eden veri kümemizdir: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Verileri en düşükten en yükseğe doğru düzenlersek, verilerin sırası şöyle olur: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Aykırı Değerleri Hesapla Adım 3
Aykırı Değerleri Hesapla Adım 3

Adım 3. Veri setinin medyanını hesaplayın

Bir veri setinin medyanı, verinin diğer yarısının bu verinin üzerinde ve kalan yarısının bunun altında olduğu bir veridir; temel olarak, bu veri, veri kümesinin "ortasında" bulunan veridir. Bir veri setindeki veri sayısı tek ise, bulunması çok kolaydır - medyan, üstünde ve altında aynı sayıya sahip veridir. Bununla birlikte, veri setindeki veri sayısı çift ise, o zaman, ortada hiç kimse veri tabanına sığmadığı için, ortadaki 2 verinin ortalaması alınarak ortanca bulunur. Aykırı değerleri hesaplarken, medyana genellikle Q2-ni değişkeni atanır, çünkü Q2, daha sonra tartışacağımız alt ve üst çeyrek olan Q1 ve Q3 arasındadır.

  • Veri sayısının çift olduğu bir veri seti ile karıştırılmaması için - ortadaki 2 verinin ortalaması genellikle veri setinin kendisinde olmayan bir sayı döndürür - bunda bir sorun yoktur. Ancak, ortadaki 2 veri aynı sayıysa, ortalama da elbette aynı sayı olacaktır, bu da iyidir.
  • Yukarıdaki örnekte 12 verimiz var. Ortadaki 2 veri sırasıyla 6. ve 7. veriler-70 ve 71'dir. Yani, veri setimizin medyanı bu 2 sayının ortalamasıdır: ((70 + 71) / 2), = 70.5.
Aykırı Değerleri Hesapla Adım 4
Aykırı Değerleri Hesapla Adım 4

Adım 4. Alt çeyreği hesaplayın

Q1 değişkenini verdiğimiz bu değer, verilerin yüzde 25'ini (veya dörtte birini) temsil eden sıfır noktasıdır. Başka bir deyişle, medyanın altındaki verileri ikiye bölen referans noktasıdır. Medyanın altındaki veri sayısı çift ise, tıpkı medyanın kendisini bulacağınız gibi Q1'i bulmak için yine ortadaki 2 verinin ortalamasını almanız gerekir.

Örneğimizde, medyanın üzerinde 6 veri ve medyanın altında 6 veri bulunmaktadır. Bu, alt çeyreği bulmak için medyanın altındaki 6 verinin ortasındaki 2 verinin ortalamasını almamız gerektiği anlamına gelir. Medyanın altındaki 6 mevkinin 3. ve 4. mevkilerinin ikisi de 70'tir. Yani ortalama ((70 + 70) / 2), = 70. 70 bizim Q1 olur.

Aykırı Değerleri Hesapla Adım 5
Aykırı Değerleri Hesapla Adım 5

Adım 5. Üst çeyreği hesaplayın

Q3 değişkenini verdiğimiz bu değer, sıfır noktası kümesindeki sıfır noktalarının yüzde 25'inin bulunduğu sıfır noktasıdır. Q3'ü bulmak, Q1'i bulmakla hemen hemen aynıdır, ancak bu durumda, medyanın altına değil medyanın üzerindeki verilere bakıyoruz.

Yukarıdaki örneğimize devam edersek, medyanın üstündeki 6 referansın ortasındaki 2 referans 71 ve 72'dir. Bu 2 referansın ortalaması ((71 + 72)/2), = 71, 5. 71, 5 bizim Q3'ümüz.

Aykırı Değerleri Hesapla Adım 6
Aykırı Değerleri Hesapla Adım 6

Adım 6. Çeyrekler arası mesafeyi bulun

Şimdi Q1 ve Q3'ü bulduğumuza göre, bu iki değişken arasındaki mesafeyi hesaplamamız gerekiyor. Q1'den Q3'e olan mesafe, Q1'in Q3'ten çıkarılmasıyla bulunur. Çeyrekler arası mesafeler için aldığınız değerler, veri setinizdeki aykırı olmayan veri sınırlarının tanımlanması açısından çok önemlidir.

  • Örneğimizde Q1 ve Q3 değerlerimiz 70 ve 71, 5. Çeyrekler arası mesafeyi bulmak için Q3 - Q1 = 71.5 - 70 = çıkarıyoruz. 1, 5.
  • Bunun Q1, Q3 veya her ikisi de negatif sayılar olsa bile doğru olduğuna dikkat edilmelidir. Örneğin, Q1 değerimiz -70 olsaydı, doğru çeyrekler arası mesafemiz 71,5 - (-70) = 141, 5 olurdu.
Aykırı Değerleri Hesapla Adım 7
Aykırı Değerleri Hesapla Adım 7

Adım 7. Veri setinde “iç çiti” bulun

Aykırı değerler, verinin “iç çit” ve “dış çit” olarak adlandırılan sayı sınırları içinde olup olmadığı kontrol edilerek bulunur. Veri setinin iç çitinin dışına düşen bir veriye “küçük aykırı değer”, dış çitin dışına düşen bir veriye “büyük aykırı değer” denir. Veri kümenizdeki iç çiti bulmak için önce çeyrekler arası mesafeyi 1, 5 ile çarpın. Ardından sonucu Q3 ile toplayın ve Q1'den çıkarın. Aldığınız iki değer, veri setinizin iç çit sınırlarıdır.

  • Örneğimizde, çeyrekler arası mesafe (71.5 - 70) veya 1.5'tir.1.5 ile 1.5'i çarpın, bu da 2.25 ile sonuçlanır. Bu sayıyı Q3'e ekleyip Q1'i bu sayıdan çıkararak iç çitin sınırlarını aşağıdaki gibi buluruz:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Yani, iç çitimizin sınırları 67, 75 ve 73, 75.
  • Veri setimizde yalnızca fırın sıcaklığı, 300 Fahrenheit - bu sınırların dışındadır ve dolayısıyla bu veri küçük bir aykırı değerdir. Ancak, bu sıcaklığın büyük bir aykırı değer olup olmadığını henüz hesaplamadık, bu yüzden hesaplamalarımızı yapana kadar sonuçlara atlamayın.

    Aykırı Değerleri Hesapla Adım 7Bullet2
    Aykırı Değerleri Hesapla Adım 7Bullet2
Aykırı Değerleri Hesapla Adım 8
Aykırı Değerleri Hesapla Adım 8

Adım 8. Veri setinde “dış çiti” bulun

Bu, çeyrekler arası mesafenin 1.5 yerine 3 ile çarpılması dışında, iç çiti bulmakla aynı şekilde yapılır. Sonuç daha sonra Q3'e eklenir ve dış çitin üst ve alt sınırlarını bulmak için Q1'den çıkarılır.

  • Örneğimizde, çeyrekler arası mesafeyi 3 ile çarpmak (1, 5 x 3) veya 4, 5 verir. Dış çitin sınırlarını öncekiyle aynı şekilde buluruz:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Dış çitin sınırları 65.5 ve 76.
  • Dış çitin sınırlarının dışında kalan veriler, ana aykırı değerler olarak adlandırılır. Bu örnekte, fırın sıcaklığı, 300 Fahrenheit, açıkça dış çitin dışındadır, bu nedenle bu veri "kesinlikle" büyük bir aykırı değerdir.

    Aykırı Değerleri Hesapla Adım 8Bullet2
    Aykırı Değerleri Hesapla Adım 8Bullet2
Aykırı Değerleri Hesapla Adım 9
Aykırı Değerleri Hesapla Adım 9

Adım 9. Aykırı verinin “atılıp atılmayacağını” belirlemek için nitel muhakemeyi kullanın

Yukarıda açıklanan yöntem kullanılarak, bir verinin küçük veri mi, büyük veri mi yoksa hiç aykırı veri mi olmadığı belirlenebilir. Ancak, hata yapmayın-bir veriyi aykırı değer olarak bulmak, veriyi yalnızca veri kümesinden çıkarılması gereken bir veri olarak işaretler, “atılması gereken” bir veri olarak değil. Bir veri setindeki aykırı verinin diğer verilerden sapmasına neden olan "neden", veri setinin atılıp atılmayacağının belirlenmesinde çok önemlidir. Genel olarak, örneğin ölçüm, kayıt veya deneysel planlamadaki bir hatadan kaynaklanan bir aykırı değer atılabilir. Öte yandan, hatadan kaynaklanmayan ve daha önce tahmin edilmeyen yeni bilgileri veya eğilimleri gösteren aykırı değerler genellikle “atılır”.

  • Göz önünde bulundurulması gereken diğer bir kriter, aykırı değerin bir veri setinin ortalaması üzerinde büyük bir etkiye sahip olup olmadığı, yani aykırı değerin onu karıştırıp karıştırmadığı veya yanlış görünmesini sağlayıp sağlamadığıdır. Veri kümenizin ortalamasından sonuçlar çıkarmayı düşünüyorsanız bunu dikkate almanız çok önemlidir.
  • Örneğimizi inceleyelim. Bu örnekte, fırının öngörülemeyen doğal kuvvetler yoluyla 300 Fahrenheit'e ulaşması "son derece" ihtimal dışı göründüğünden, neredeyse kesinlikle fırının kazara açık bırakıldığı ve bunun da yüksek sıcaklıkta bir veri anormalliği ile sonuçlandığı sonucuna varabiliriz. Ayrıca aykırı değerleri kaldırmazsak datum set ortalamamız (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89.67 Fahrenheit (32 santigrat derece) olur.), aykırı değerleri kaldırırsak ortalama (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70.55 Fahrenheit (21 santigrat derece).

    Bu aykırı değerler insan hatasından kaynaklandığından ve ortalama oda sıcaklığının yaklaşık 90 Fahrenheit'e (32 santigrat derece) ulaştığını söylemek yanlış olacağından, aykırı değerlerimizi “atmayı” seçmemiz daha iyi olur

Aykırı Değerleri Hesapla Adım 10
Aykırı Değerleri Hesapla Adım 10

Adım 10. Aykırı değerleri korumanın (bazen) önemini bilin

Bazı aykırı değerler, hatalara neden oldukları ve/veya sonuçları hatalı veya hatalı yaptıkları için veri kümesinden çıkarılsa da, bazı aykırı değerler korunmalıdır. Örneğin, bir aykırı değer doğal olarak elde edilmiş gibi görünüyorsa (yani bir hatanın sonucu değil) ve/veya incelenen olguya yeni bir bakış açısı sağlıyorsa, aykırı değer veri setinden çıkarılmamalıdır. Bilimsel araştırma, genellikle aykırı değerler söz konusu olduğunda çok hassas bir durumdur – aykırı değerlerin yanlış bir şekilde kaldırılması, yeni bir trendi veya keşfi gösteren bilgilerin atılması anlamına gelebilir.

Örneğin, bir balık havuzundaki balıkların boyutunu artırmak için yeni bir ilaç tasarladığımızı varsayalım. Eski veri setimizi kullanacağız ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), ancak bu sefer her veri bir balığın ağırlığını temsil edecek (gram olarak) doğumdan itibaren farklı bir deneysel ilaç verildikten sonra. Başka bir deyişle, ilk ilaç bir balığın 71 gram, ikinci ilaç başka bir balığın 70 gram ağırlığında olmasına neden olur ve bu böyle devam eder. Bu durumda 300, “hala” büyük bir aykırı değerdir, ancak bu veriyi atmamalıyız çünkü hatasız elde edildiğini varsayarsak, çalışmada bir başarıyı temsil eder. Balığı 300 gram ağırlığa getirebilen ilaç, diğer tüm ilaçlardan daha iyi çalışır, bu nedenle bu veri aslında veri setimizde “en az önemli” değil, “en önemli”dir

Önerilen: