बॉक्स और व्हिस्कर प्लॉट
बॉक्स और व्हिस्कर प्लॉट, या बॉक्स-प्लॉट के रूप में भी जाना जाता है, एक नमूने का एक प्रकार का चित्रमय चित्रण है, जो एक नमूने के वितरण की प्रमुख विशेषताओं को देखने में आसान प्रदान करता है।
एक बॉक्स-एंड-व्हिस्कर प्लॉट अपने "बॉक्स" में माध्यिका के साथ-साथ पहले और तीसरे चतुर्थक और "व्हिस्कर" में न्यूनतम और अधिकतम प्रदान करता है।
जब न्यूनतम या अधिकतम बहुत अधिक हो, तो मूंछ को "ट्रिम" करें और हम एक बाहरी के अस्तित्व की व्याख्या करते हैं।
ऊपर दिए गए ग्राफ़ में आपके पास एक उदाहरण है कि एक बॉक्सप्लॉट कैसा दिखता है: आपके पास "बॉक्स" और मूंछें हैं।
बॉक्स की निचली रेखा को प्रथम चतुर्थक (\(Q_1\)) द्वारा परिभाषित किया गया है।
बॉक्स की मध्य रेखा को माध्यिका (\(Q_2\)) द्वारा परिभाषित किया जाता है।
बॉक्स की शीर्ष रेखा को तीसरे चतुर्थक (\(Q_3\)) द्वारा परिभाषित किया गया है।
अब, मूंछों के लिए पालन करने के लिए एक नियम है: नीचे की मूंछ को न्यूनतम नमूने द्वारा परिभाषित किया गया है, और शीर्ष व्हिस्कर को अधिकतम नमूने द्वारा परिभाषित किया गया है। यह प्रदान किया जाता है कि मूंछ का आकार \(1.5 \times IQR\) से छोटा होता है, जहां \(IQR\) इंटरक्वार्टाइल रेंज है, और इसे \(IQR = Q_3 - Q_1\) द्वारा परिभाषित किया जाता है।
नीचे नमूना ग्राफ देखें।
तो फिर, यदि न्यूनतम नमूना \(Q_1 - 1.5 \times IQR\) से अधिक है, तो निचली मूंछ को न्यूनतम द्वारा परिभाषित किया जाता है। अन्यथा, इसे \(Q_1 - 1.5 \times IQR\) द्वारा परिभाषित किया जाता है।
इसी तरह, यदि नमूना का अधिकतम \(Q_3 + 1.5 \times IQR\) से कम है, तो शीर्ष व्हिस्कर को अधिकतम द्वारा परिभाषित किया जाता है। अन्यथा, इसे \(Q_3 + 1.5 \times IQR\) द्वारा परिभाषित किया जाता है।
उदाहरण 1
निम्नलिखित नमूने के लिए एक बॉक्स-प्लॉट बनाइए:
28, 36, 43, 30, 46, 19, 46, 36, 34, 38, 42, 29, 37, 35, 39, 39, 30, 39, 36, 38, 30, 41, 42, 46, 40, 33, 30, 40, 43, 30, 42, 39, 30, 35, 38, 41, 30, 37, 40, 30, 30, 35, 39, 37, 42, 42, 37, 38, 32, 51
उत्तर:
हम पाते हैं कि अधिकतम और न्यूनतम हैं
\[\min = 19\] \[\max = 51\]निम्न तालिका डेटा को आरोही क्रम में दिखाती है:
डेटा (आरोही क्रम में) |
19 |
28 |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 |
35 |
35 |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 |
41 |
42 |
42 |
42 |
42 |
42 |
43 |
43 |
46 |
46 |
46 |
51 |
माध्यिका तब है
\[Median=\frac{{37}+{38}}{2}=37.5\]25वें पर्सेंटाइल की स्थिति है
\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]तब, हमें वह मिलता है
\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]75वें पर्सेंटाइल की स्थिति है
\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]तब, हमें वह मिलता है
\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]इसलिए, 5-संख्या सारांश है
\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 51\]इस मामले में इंटरक्वेर्टाइल रेंज \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\) है। अत,
\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)
\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)
ध्यान दें कि न्यूनतम 19 है, और यह \(Q_1 - 1.5 \times IQR = 17.25\) से अधिक है। और अधिकतम 51 है, और यह \(Q_3 + 1.5 \times IQR = 55.25\) से कम है।
हम यह निष्कर्ष निकालते हैं कि निचली मूंछ न्यूनतम है, और इस मामले में शीर्ष मूंछ अधिकतम है। रेखांकन
उदाहरण 2
पिछले उदाहरण से उसी नमूने के लिए बॉक्स प्लॉट खोजें, लेकिन जब आप "51" को "81" से बदलते हैं।
उत्तर:
हम पाते हैं कि अधिकतम और न्यूनतम हैं
\[\min = 19\] \[\max = 81\]निम्न तालिका डेटा को आरोही क्रम में दिखाती है:
डेटा (आरोही क्रम में) |
19 |
28 |
29 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
30 |
32 |
33 |
34 |
35 |
35 |
35 |
36 |
36 |
36 |
37 |
37 |
37 |
37 |
38 |
38 |
38 |
38 |
39 |
39 |
39 |
39 |
39 |
40 |
40 |
40 |
41 |
41 |
42 |
42 |
42 |
42 |
42 |
43 |
43 |
46 |
46 |
46 |
81 |
माध्यिका तब है
\[Median=\frac{{37}+{38}}{2}=37.5\]25वें पर्सेंटाइल की स्थिति है
\[{{L}_{25}}=\frac{P}{100}\times \left( n+1 \right)=\frac{25}{100}\times \left( 50+1 \right) = {12.75}\]तब, हमें वह मिलता है
\[{{Q}_{1}}={30} +{0.75}\times \left( {32}-{30} \right) = {31.5}\]75वें पर्सेंटाइल की स्थिति है
\[{{L}_{75}}=\frac{P}{100}\times \left( n+1 \right)=\frac{75}{100}\times \left( 50+1 \right) = {38.25}\]तब, हमें वह मिलता है
\[{{Q}_{3}}={41}+{0.25}\times \left( {41}-{41} \right) = {41}\]इसलिए, 5-संख्या सारांश है
\[\min = 19, Q_1 = 31.5, Q_2 = 37.5, Q_3 = 41, \max = 81\]इस मामले में इंटरक्वेर्टाइल रेंज \(IQR = Q_3 - Q_1 = 41 - 31.5 = 9.5\) है। अत,
\(Q_1 - 1.5 \times IQR = 31.5 - 1.5 \times 9.5 = 17.25\)
\(Q_3 + 1.5 \times IQR = 41 + 1.5 \times 9.5 = 55.25\)
ध्यान दें कि न्यूनतम 19 है, और यह \(Q_1 - 1.5 \times IQR = 17.25\) से अधिक है। लेकिन अब अधिकतम 81 है, जो \(Q_3 + 1.5 \times IQR = 55.25\) से अधिक है। इसलिए, मान "81" एक बाहरी है।
हम यह निष्कर्ष निकालते हैं कि निचली मूंछ न्यूनतम है, और ऊपरी मूंछ को \(Q_3 + 1.5 \times IQR = 55.25\) द्वारा परिभाषित किया गया है। रेखांकन
बॉक्सप्लॉट के बारे में अधिक जानकारी
लोगों का मुख्य सवाल यह है कि बॉक्सप्लॉट आपको क्या बताते हैं। वे क्या प्रतिनिधित्व करते हैं। और इसका उत्तर सरल है: वे आपको एक नमूना के वितरण का एक संक्षिप्त चित्रण प्रदान करते हैं, जिसमें एक योजनाबद्ध ग्राफ प्रदान किया जाता है जो कि सापेक्ष स्थिति को दर्शाता है 5-संख्या सारांश .
इस तरह, आप के लिए स्कैन कर सकते हैं बाहरी कारकों के कारण , आप वितरण की विषमता की डिग्री का आकलन कर सकते हैं, और आप जल्दी से स्कैन कर सकते हैं कि क्षेत्रों में कुल वितरण का 25%, 50% और 75% है।
बॉक्स-प्लॉट और हिस्टोग्राम के बीच अंतर
बॉक्स प्लॉट के बारे में एक बात यह है कि यह ऐसी जानकारी प्रदान करता है जो हिस्टोग्राम द्वारा प्रदान की गई जानकारी से थोड़ी भिन्न होती है।
दरअसल, हिस्टोग्राम यादृच्छिक चर के संभावित मूल्यों को वर्गीकृत करने के लिए उपयोग किए जाने वाले वर्गों के आधार पर वितरण के कच्चे आकार को दर्शाता है। दूसरी ओर, बॉक्सप्लॉट चतुर्थक और 5-संख्या सारांश के बारे में संक्षिप्त जानकारी प्रदान करता है, जो आपको माध्यिका के संबंध में पहले और तीसरे चतुर्थक की सापेक्ष स्थिति के बारे में बहुत कुछ बताता है।
तो दूसरे शब्दों में, बॉक्सप्लॉट, हिस्टोग्राम के विपरीत, एक ग्राफ प्रस्तुत करता है जो a . का प्रतिनिधित्व करता है वितरण का सारांश , कच्चे चित्रण के बजाय। बॉक्सप्लॉट में जाने वाले एकमात्र कच्चे मूल्य आउटलेयर होंगे (यदि कोई है)।
अनुप्रयोग
बॉक्स प्लॉट के लिए सबसे शास्त्रीय अनुप्रयोग आउटलेर्स का पता लगाने के लिए है। परिभाषा के अनुसार, बॉक्स-प्लॉट व्हिस्कर्स के आकार को बॉक्स के सिरों से इंटरक्वार्टाइल रेंज \((IQR)\) के 1.5 गुना तक सीमित करता है (जो \(Q_1\) और \(Q_3\) द्वारा परिभाषित हैं।
तो, फिर, कोई भी बिंदु जो मूंछ के अधिकतम आकार से आगे जाता है, उसे बॉक्स-प्लॉट में एनोटेट किया जाएगा और इसे एक बाहरी माना जाएगा।
इसका उपयोग करके इस ट्यूटोरियल में सीखी गई अवधारणाओं का अभ्यास करें बॉक्स-प्लॉट मेकर . एक अन्य ग्राफ निर्माता जो एक झलक में नमूने के वितरण के वितरण गुणों को देखने की अनुमति देगा, वह है: हिस्टोग्राम निर्माता , या यह तना और पत्ती प्लॉट निर्माता .