القاعدة التجريبية والقواعد الأخرى في الإحصاء
في أي فصل دراسي في الإحصاء , ستجد في كثير من الأحيان أن بعض "القواعد" يشار إليها عادة. تهدف هذه القواعد عادةً إلى تبسيط حياتك ومساعدتك في جعل بعض الحسابات أسهل. لكن ليست كل هذه القواعد متساوية. في الواقع , ليست كل هذه القواعد "قواعد" فعلية , فبعضها مجرد تقريبية , وعلى هذا النحو , قد يكون لها استخدام محدد فقط , أو حتى استخدام محدود في بعض الأحيان.
سنناقش في الفقرات التالية عددًا قليلاً من قواعد الإحصائيات والتقديرات الشائعة الاستخدام. هذه بسيطة للغاية بشكل عام , لكن عليك أن تعرف بالضبط كيفية استخدامها بالطريقة المقصودة.
قاعدة تجريبية للتوزيع الطبيعي
هذه إلى حد بعيد واحدة من أكثر "القواعد" المعروفة على نطاق واسع في الإحصاء. أستمر في كتابة "قاعدة" بعلامات اقتباس , لأن هذه ليست في الحقيقة قاعدة ولكنها تقريبية. تنص القاعدة التجريبية على أنه إذا تم توزيع المتغير بشكل طبيعي , فإن ما يقرب من 68٪ من التوزيع يقع ضمن انحراف معياري واحد عن المتوسط , و 95٪ من التوزيع يقع ضمن انحرافين معياريين عن المتوسط و 99.7٪ من التوزيع ضمن ثلاثة الانحرافات المعيارية للمتوسط.
بادئ ذي بدء , دعونا نرى لماذا هذا منطقي. الحدث الذي يتوافق مع القيم التي تقع ضمن انحراف معياري واحد عن المتوسط هو \(\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}\) , وإذا قمنا بالتطبيع (طرح على \(\mu\) وقسمنا على \(\sigma\)) , نحصل على الأحداث المكافئة التالية:
\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}\]
ولكن , إذا تم توزيع \(X\) عادةً بمتوسط \(\mu\) وانحراف معياري \(\sigma\) , فإننا نعلم أن المتغير \(\frac{X-\mu }{\sigma}\) له توزيع عادي قياسي (هذا توزيع عادي بمتوسط 0 وانحراف معياري 1). عادة , المتغير \(\frac{X-\mu }{\sigma}\) مكتوب كـ \(Z\) , إذن ما لدينا هو
\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}=\left\{ -1\le Z\le 1 \right\}\]حيث \(Z\) له توزيع عادي قياسي. إذا استخدمنا آلة حاسبة , أو برنامج جداول بيانات مثل Excel , نجد أن احتمال الحدث الذي يتوافق مع القيم التي تقع ضمن انحراف معياري واحد للمتوسط هو
\[Pr \left( \mu -\sigma \le X\le \mu +\sigma \right)=\Pr \left( -1\le \frac{X-\mu }{\sigma }\le 1 \right)=\Pr \left( -1\le Z\le 1 \right)\] \[=\Pr \left( Z\le 1 \right)-\Pr \left( Z\le -1 \right)\approx 0.\text{841345}-0.\text{158655}\approx 0.\text{682689}\]لذا , فإن النسبة المئوية الحقيقية للقيم ضمن انحراف معياري واحد للمتوسط هي شيء مثل 68.2689492٪ , والذي لا يزال مجرد تقريب , لكن هذا التقريب أفضل بكثير من 68٪ المنصوص عليها في القاعدة التجريبية.
وبالمثل , يمكننا حساب ذلك
\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)=\Pr \left( -2\le \frac{X-\mu }{\sigma }\le 2 \right)=\Pr \left( -2\le Z\le 2 \right)\] \[=\Pr \left( Z\le 2 \right)-\Pr \left( Z\le -2 \right)\approx 0.\text{977249868}-0.0\text{2275}0\text{132}\approx 0.\text{9544997}\]لذا , فإن النسبة المئوية الحقيقية للقيم ضمن انحرافين معياريين للمتوسط هي شيء مثل 95.4499736٪ (تقريبًا) , لكن هذا التقريب أفضل بكثير من 95٪ المنصوص عليها في القاعدة التجريبية.
أخيرًا , يمكننا حساب ذلك
\[\Pr \left( \mu -3\sigma \le X\le \mu +3\sigma \right)=\Pr \left( -3\le \frac{X-\mu }{\sigma }\le 3 \right)=\Pr \left( -3\le Z\le 3 \right)\] \[=\Pr \left( Z\le 3 \right)-\Pr \left( Z\le -3 \right)\approx 0.\text{99865}0\text{1}0\text{2}-0.00\text{1349898}\approx 0.\text{9973}00\text{2}\]لذا , فإن النسبة المئوية الحقيقية للقيم ضمن انحرافين معياريين للمتوسط هي تقريبًا ما يقرب من 99.7300204٪ ولكن هذا التقريب لا يزال أكثر دقة من نسبة 99.7٪ المنصوص عليها في القاعدة التجريبية.
حذر: لا تقول بعض الكتب المدرسية أن هذا تقدير تقريبي , وقد يقولون إن "68٪ من التوزيع يقع ضمن انحراف معياري واحد عن المتوسط , و 95٪ من التوزيع يقع ضمن انحرافين معياريين عن المتوسط و 99.7٪ من يكون التوزيع ضمن ثلاثة انحرافات معيارية عن المتوسط ", كما لو كان رقمًا دقيقًا. قد يتسبب ذلك في ارتباكك لأنه عند إجراء الحساب على Excel (أو باستخدام جداول الاحتمالات العادية من الجزء الخلفي من كتابك) , ستجد أن 68٪ و 95٪ و 99.7٪ ليست دقيقة في الواقع. تأكد من أنك تستخدمه في الاختبارات أو الواجب المنزلي كما قال لك مدرسك بالضبط , لكن لا تنس أنه مجرد تقدير.
قاعدة الإبهام للانحراف المعياري
هذه القاعدة هي تقريب تقريبي آخر يستخدم لتقدير الانحراف المعياري باستخدام النطاق. تنص القاعدة على أنه يمكن تقريب الانحراف المعياري بالصيغة التالية:
\[s\approx \frac{Range}{4}\]بسيط. في بعض الحالات أو التطبيقات , لن تتمكن من الوصول إلى البيانات نفسها , لكنك ستعرف النطاق. إذا كان الأمر كذلك , فكل ما عليك فعله هو أن تأخذ النطاق وتقسيمه على 4.
قاعدة تشيبيشيف
هذه قاعدة جيدة جدا حسنًا , إنها في الواقع عدم مساواة. إنها نوع من القاعدة التجريبية , لكنها تنطبق على جميع التوزيعات (نعم , لقد سمعت جيدًا) , وليس فقط للتوزيع العادي. توفر قاعدة Chebyshev حدًا أدنى للنسبة المئوية للتوزيع التي ستكون ضمن إلى الانحرافات المعيارية عن المتوسط. في الواقع , لدينا ذلك
\[\Pr \left( \mu -k\sigma \le X\le \mu +k\sigma \right)\ge 1-\frac{1}{{{k}^{2}}}\]ماذا يقول حكم تشيبيشيف لـ \(k = 2\)؟ انها تقول
\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)\ge 1-\frac{1}{{{2}^{2}}}=0.75\]هذا هو: 75٪ على الأقل من التوزيع يقع ضمن انحرافين معياريين عن المتوسط . الحق تقول. ما فائدة ذلك؟ قد تفكر في أنك تعرف شيئًا أفضل بكثير من القاعدة التجريبية. نعم , لقد علمت أن 95٪ (أو حوالي 95٪) من التوزيع يقع ضمن انحرافين معياريين عن المتوسط. ماذا يقول 75٪ هذا النتن هنا. نعم , 95٪ صحيحة , لكنها تعمل فقط للتوزيعات العادية. العبارة التي تفيد بأن 75٪ على الأقل من التوزيع يقع ضمن انحرافين معياريين عن المتوسط الذي تم الحصول عليه باستخدام قاعدة Chebyshev يعمل لجميع التوزيعات ...... كفى.