Statistikada, tashqaridan yoki "tashqaridan" - bu ma'lumotlar bazasi namunasi yoki ma'lumotlar to'plami ichidagi har qanday ma'lumotdan ancha uzoqlashadigan ma'lumotlar. Ma'lumotlar yig'indisida tez -tez uchraydigan ko'rsatkich statistik mutaxassisga o'lchovdagi g'ayritabiiylik yoki eksperimental xato haqida ogohlantiruvchi bo'lib xizmat qilishi mumkin, bu esa statistikani ma'lumotlar majmuasidan ajratib ko'rsatishni olib kelishi mumkin. Agar statistik ma'lumot manbalaridan tashqaridagi ma'lumotlarni olib tashlasa, tadqiqotdan olingan xulosalar juda boshqacha bo'lishi mumkin. Shunday qilib, statistik ma'lumotlar to'plamini to'g'ri tushunishni ta'minlash uchun tashqaridan chiquvchilarni qanday hisoblash va tahlil qilishni bilish juda muhimdir.
Qadam
Qadam 1. Potentsial ustunlik ma'lumotlarini qanday aniqlashni bilib oling
Ma'lumotlar yig'indisidan tashqaridagi ma'lumotni olib tashlash yoki yo'q qilish to'g'risida qaror qabul qilishdan oldin, albatta, biz qaysi ma'lumotlarning chetga chiqish imkoniyatiga ega ekanligini aniqlashimiz kerak. Umuman olganda, tashqi ma'lumot - bu bitta ma'lumotlar to'plamidagi boshqa ma'lumotlardan juda uzoqqa cho'zilgan ma'lumotlar, boshqacha qilib aytganda, boshqa ma'lumotlardan "tashqarida". Ma'lumotlar jadvalida yoki (xususan) grafikda chetga chiqishlarni aniqlash odatda oson. Agar bitta ma'lumotlar to'plami vizual tarzda grafik bilan tasvirlangan bo'lsa, tashqi ma'lumotlar boshqa ma'lumotlardan "juda uzoqda" bo'lib ko'rinadi. Agar, masalan, ma'lumotlar majmuasidagi ma'lumotlarning aksariyati to'g'ri chiziq hosil qilsa, tashqaridagi ma'lumotlar bu chiziqni tashkil etuvchi deb oqilona tushunilmaydi.
Keling, xonadagi 12 xil ob'ektning haroratini ifodalovchi ma'lumotlar to'plamini ko'rib chiqaylik. Agar 11 ta ob'ektning harorati taxminan 70 daraja Farangeyt (21 daraja Selsiy) bo'lsa, lekin 12 -ob'ekt - pechning harorati 300 Farenheit (150 daraja) bo'lsa, pechning harorati juda katta ekanligini darhol ko'rish mumkin. begona
2 -qadam. Ma'lumotlar to'plamini pastdan yuqorisigacha joylashtiring
Ma'lumotlar yig'indisidan tashqaridagi ma'lumotlarni hisoblashning birinchi bosqichi - bu ma'lumotlar to'plamining medianasini (o'rta qiymatini) topish. Ma'lumotlar to'plamidagi ma'lumotlar kichikdan kattagacha joylashtirilsa, bu vazifa juda oddiy bo'ladi. Shunday qilib, davom etishdan oldin, ma'lumotlar to'plamini shunday ma'lumotlar to'plamiga joylashtiring.
Keling, yuqoridagi misolni davom ettiraylik. Bu xonadagi bir nechta narsalarning haroratini aks ettiruvchi ma'lumotlar to'plami: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Agar biz ma'lumotlarni pastdan yuqoriga qarab tartiblasak, ma'lumotlar tartibini quyidagicha bo'ladi: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Qadam 3. Ma'lumotlar to'plamining medianasini hisoblang
Ma'lumotlar to'plamining medianasi - bu ma'lumotning ikkinchi yarmi bu ma'lumotdan yuqori, qolgan qismi esa uning ostida - asosan, bu ma'lumotlar to'plamining "o'rtasida" joylashgan ma'lumotlar nuqtasi. Agar ma'lumotlar majmuasidagi ma'lumotlar soni g'alati bo'lsa, uni topish juda oson - mediananing yuqorisida va ostida bir xil raqamga ega bo'lgan ma'lumotlar. Ammo, agar ma'lumotlar to'plamidagi ma'lumotlar soni teng bo'lsa, unda hech kim o'rtaga to'g'ri kelmagani uchun, o'rtadagi 2 ta ma'lumot o'rtacha topiladi. Shuni ta'kidlash kerakki, tashqariga chiquvchilarni hisoblashda medianaga odatda Q2-ni o'zgaruvchisi beriladi, chunki Q2 Q1 va Q3 o'rtasida, quyi va yuqori kvartil orasida bo'ladi, biz bu haqda keyinroq gaplashamiz.
- Ma'lumotlar soni teng bo'lgan ma'lumotlar to'plami bilan adashtirmaslik kerak-2 ta o'rta ma'lumotlarning o'rtacha ko'rsatkichlari ko'pincha ma'lumotlar to'plamida bo'lmagan raqamni qaytaradi-bu yaxshi. Ammo, agar ikkita o'rta ma'lumot bir xil bo'lsa, o'rtacha, albatta, xuddi shu raqam bo'ladi, bu ham yaxshi.
- Yuqoridagi misolda bizda 12 ta ma'lumotlar mavjud. Ikkita o'rta ma'lumotlar-6 va 7-ma'lumotlar-70 va 71, shuning uchun bizning ma'lumotlar to'plamining medianasi bu 2 raqamning o'rtacha: ((70 + 71) / 2), = 70.5.
Qadam 4. Pastki kvartilni hisoblang
Biz Q1 o'zgaruvchiga beradigan bu qiymat - bu ma'lumotlarning 25 foizini (yoki chorak qismini) tashkil etuvchi ma'lumotlar. Boshqacha qilib aytganda, bu medianadan past bo'lgan ma'lumotlarni ikkiga bo'ladigan ma'lumotlar. Agar medianadan past bo'lgan ma'lumotlar soni teng bo'lsa, siz o'rtadagi 2 ta ma'lumotni o'rtacha 1 -chorakni topishingiz kerak, xuddi medianani o'zi topgandek.
Bizning misolimizda mediananing ustida joylashgan 6 ta ma'lumotlar, va mediananing ostida joylashgan 6 ta ma'lumotlar mavjud. Bu shuni anglatadiki, quyi kvartilni topish uchun medianadan pastda joylashgan 6 ta ma'lumotlar o'rtasiga 2 ta ma'lumotni o'rtacha qo'yishimiz kerak bo'ladi. Medianadan past bo'lgan 6 ta ma'lumotdan iborat 3 -chi va 4 -chi ma'lumotlar 70. Shunday qilib, o'rtacha ((70 + 70) / 2), = 70. 70 bizning birinchi chorakka aylanadi.
5 -qadam. Yuqori kvartilni hisoblang
Q3 o'zgaruvchiga beradigan bu qiymat, ma'lumotlar majmuasida ma'lumotlar 25 % bo'lgan ma'lumotlar. Q3ni topish deyarli Q1ni topishga o'xshaydi, faqat bu holda biz medianadan pastda emas, balki mediananing ustidagi ma'lumotlarni ko'rib chiqamiz.
Yuqoridagi misolimizni davom ettirsak, mediananing ustidagi 6 ta ma'lumotlar o'rtasidagi 2 ta ma'lumotlar 71 va 72. Bu 2 ma'lumotlarning o'rtacha qiymati ((71 + 72)/2), = 71, 5. 71, 5 - bizning 3 -chorak.
6 -qadam. Quvurlararo masofani toping
Endi biz Q1 va Q3 ni topdik, bu ikkita o'zgaruvchining orasidagi masofani hisoblashimiz kerak. Q1dan Q3gacha bo'lgan masofa Q3dan Q1ni olib tashlash orqali topiladi. Qatorlararo masofalar uchun olingan qiymatlar sizning ma'lumotlar to'plamingizdagi notanish bo'lmagan ma'lumotlar chegaralarini aniqlash uchun juda muhimdir.
- Bizning misolimizda Q1 va Q3 qiymatlarimiz 70 va 71, 5. Qatorlararo masofani topish uchun Q3 - Q1 = 71.5 - 70 = chiqaramiz. 1, 5.
- Shuni ta'kidlash kerakki, bu Q1, Q3 yoki ikkalasi ham salbiy sonlar bo'lsa ham to'g'ri. Misol uchun, agar bizning Q1 qiymatimiz -70 bo'lsa, bizning to'g'ri kvartallar orasidagi masofa 71,5 -(-70) = 141, 5 bo'ladi.
Qadam 7. Ma'lumotlar to'plamidagi "ichki panjara" ni toping
Ma'lumotlar "ichki panjara" va "tashqi panjara" deb nomlangan chegaralar chegarasiga kiradimi -yo'qligini tekshirish orqali tashqaridan topiladi. Ma'lumotlar to'plamining ichki panjarasi tashqarisiga tushadigan ma'lumotni "kichik tashqi", tashqi to'siqdan tashqariga chiqadigan ma'lumotni "asosiy tashqariga chiqish" deb atashadi. Ma'lumotlar to'plamidagi ichki to'siqni topish uchun birinchi navbatda kvartallararo masofani 1, 5 ga ko'paytiring. Keyin natijani Q3 ga qo'shing va Q1dan olib tashlang. Siz olgan ikkita qiymat - bu ma'lumotlar to'plamining ichki panjarasi.
-
Bizning misolimizda, kvartalararo masofa (71,5 - 70) yoki 1,5 ga teng. 1,5 ga 1,5 ga ko'paytiring, natijada 2,25 bo'ladi. Biz bu sonni Q3 ga qo'shamiz va Q1 ni shu raqamga ayirib, ichki panjara chegaralarini quyidagicha topamiz:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Shunday qilib, bizning ichki panjaramiz chegaralari 67, 75 va 73, 75.
-
Bizning ma'lumotlar to'plamimizda faqat pechning harorati, 300 Farenheit - bu chegaradan tashqarida, shuning uchun bu ma'lumot kichikroq. Biroq, biz hali ham bu haroratning asosiy farqi yo'qligini hisoblay olmadik, shuning uchun hisob -kitoblarimizni qilmagunimizcha xulosa chiqarishga shoshilmang.
Qadam 8. Ma'lumotlar to'plamida "tashqi devor" ni toping
Bu ichki panjara topgandek amalga oshiriladi, faqat kvartallararo masofa 1,5 o'rniga 3 ga ko'paytiriladi, natijada Q3 ga qo'shiladi va Q1dan chiqariladi va tashqi devorning yuqori va pastki chegaralarini topadi.
-
Bizning misolimizda, interkartil masofani 3 ga ko'paytirish (1, 5 x 3) yoki 4, 5 ni beradi. Biz tashqi panjara chegaralarini avvalgidek topamiz:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Tashqi panjara chegaralari 65.5 va 76.
-
Tashqi panjara chegarasidan tashqarida joylashgan ma'lumotlar katta chegaralar deb ataladi. Bu misolda, pechning harorati, 300 Farenheit, aniq tashqi panjara tashqarisida joylashgan, shuning uchun bu ma'lumot "aniq" katta farq qiladi.
Qadam 9. Tashqi ma'lumotni "tashlab yuborish" yoki qilmaslikni aniqlash uchun sifatli mulohazadan foydalaning
Yuqorida tavsiflangan usuldan foydalanib, ma'lumotlar kichik, asosiy ma'lumotlar yoki umuman tashqarida emasligini aniqlash mumkin. Biroq, xato qilmang - ma'lumotni tashqaridan topsangiz, bu ma'lumotni "o'chirilishi kerak" emas, balki "nomzod" sifatida o'chiriladi. Ma'lumotlar majmuasidagi boshqa ma'lumotlardan chetga chiqishga sabab bo'lgan "sabab" uni tashlab qo'yish yoki qilmaslikni aniqlashda juda muhimdir. Umuman olganda, o'lchov, ro'yxatga olish yoki eksperimental rejalashtirishda xatolik tufayli yuzaga kelgan tashqi ko'rsatkichni tashlab yuborish mumkin. Boshqa tomondan, xato tufayli yuzaga kelmagan va ilgari bashorat qilinmagan yangi ma'lumotlar yoki tendentsiyalarni ko'rsatadigan tashqi ko'rsatkichlar odatda "tashlanmaydi".
- Ko'rib chiqilishi kerak bo'lgan yana bir mezon - bu nuqta ma'lumotlari to'plamining o'rtacha qiymatiga katta ta'sir ko'rsatadimi, ya'ni chet elchi uni chalkashtiradimi yoki noto'g'ri ko'rsatadimi. Agar siz ma'lumotlar to'plamining o'rtacha qiymatidan xulosa chiqarishni xohlasangiz, buni hisobga olish juda muhimdir.
-
Keling, o'z misolimizni o'rganamiz. Bu misolda, o'choqni oldindan aytib bo'lmaydigan tabiiy kuchlar orqali 300 Farenheitga yetgani "juda" imkonsiz bo'lib tuyulgani uchun, biz deyarli ishonch bilan xulosa qilishimiz mumkinki, o'choq tasodifan yonib ketgan, natijada yuqori haroratli ma'lumotlar anormalligi paydo bo'lgan. Bundan tashqari, agar biz chet elliklarni olib tashlamasak, bizning ma'lumotlar to'plamining o'rtacha qiymati (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Farengeyt (32 daraja Selsiy bo'yicha)), agar biz chetni olib tashlasak o'rtacha (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Farengeyt (21 daraja Selsiy).
Bu xatoliklar odamlarning xatosi tufayli sodir bo'lgani uchun va xonadagi o'rtacha harorat taxminan 90 daraja Farangeytga (32 daraja) etadi, deyish noto'g'ri bo'lar edi, shuning uchun biz o'zimizni chetga surib qo'yishni afzal bilamiz
10 -qadam. Tashqarini saqlashning muhimligini (ba'zan) biling
Garchi ba'zi bir xatoliklar xatolarga olib kelishi va/yoki natijalarni noaniq yoki noto'g'ri qilishlari uchun ma'lumotlar bazasidan o'chirilishi kerak bo'lsa -da, ba'zi bir chetlab o'tishlar saqlanishi kerak. Agar, masalan, tashqi ko'rinishga ega bo'lgan odam tabiiy ko'rinishda (ya'ni, xatoning natijasi emas) ko'rinsa va/yoki o'rganilayotgan hodisaga yangi nuqtai nazarni taqdim etsa, tashqi ma'lumotni ma'lumotlar to'plamidan olib tashlamaslik kerak. Ilmiy izlanishlar, odatda, chetga chiqish haqida gap ketganda, juda nozik holatdir - chetdan olib tashlanganlarni noto'g'ri olib tashlash, yangi tendentsiya yoki kashfiyotni ko'rsatadigan ma'lumotni yo'q qilishni anglatishi mumkin.