Учебник по линейной регрессии




Примеры задач линейной регрессии



Вопрос 1: Формулы для линии наименьших квадратов были найдены путем решения системы уравнений

\[nb+m\left( \sum{x} \right)=\sum{y}\]

\[b\left( \sum{x} \right)+m\left( \sum{x^2} \right)=\sum{xy}\]

Решите эти уравнения относительно b и m, чтобы показать, что

\[\begin{align} & m=\frac{n\left( \sum{xy} \right)-\left( \sum{x} \right)\left( \sum{y} \right)}{n\left(\sum{{{x}^{2}}} \right)-{{\left( \sum{x} \right)}^{2}}} \\ & b=\frac{\sum{y-m\left( \sum{x}\right)}}{n} \\ \end{align}\]

Решение: Из

\[ nb+m\left( \sum{x} \right)=\sum{y}\]

\[b\left( \sum{x} \right)+m\left( \sum{x^2} \right)=\sum{xy}\]

у нас есть два уравнения и две неизвестные (m и b)

Мы получаем это, умножая первое уравнение на \(\left( \sum{x} \right)\), а второе на -n, мы получаем

\[\begin{align} & nb\left( \sum{x} \right)+m{{\left( \sum{x} \right)}^{2}}=\left( \sum{y}\right)\left(\sum{x} \right) \\ & -nb\left( \sum{x} \right)-mn\left( {{\sum{x}}^{2}}\right)=n\sum{xy} \\ \end{align}\]

и теперь добавляем это:

\[m\left( {{\left( \sum{x} \right)}^{2}}-n\left( {{\sum{x}}^{2}} \right) \right)=\left( \sum{x} \right)\left(\sum{y} \right)-n\left( \sum{xy} \right)\]

\[\Rightarrow \,\,\,\,m=\frac{\left( \sum{x} \right)\left( \sum{y} \right)-n\left( \sum{xy} \right)}{{{\left( \sum{x} \right)}^{2}}-n\left( {{\sum{x}}^{2}} \right)}=\frac{n\left( \sum{xy} \right)-\left( \sum{x} \right)\left( \sum{y} \right)}{n\left( {{\sum{x}}^{2}} \right)-{{\left( \sum{x} \right)}^{2}}}\]

Теперь из этого уравнения:

\[nb+m\left( \sum{x} \right)=\left( \sum{y} \right)\]

мы можем решить для б :

\[nb+m\left( \sum{x} \right)=\left( \sum{y} \right)\,\,\Rightarrow \,\,\,nb=\left( \sum{y} \right)-m\left( \sum{x} \right)\,\Rightarrow \,\,\,b=\frac{\left( \sum{y} \right)-m\left( \sum{x} \right)}{n}\]



Вопрос 2: Определите коэффициент корреляции и создайте график линии регрессии с коэффициентом регрессии для следующего набора данных.

Лесные пожары и сожженные участки. Количество пожаров и выгоревших акров следующие.

Пожары (x)

72

69

58

47

84

62

57 год

45

Акры (и)

62

41 год

19

26

51

15

30

15


Решение: (а) Получена следующая диаграмма рассеяния:

Основываясь на диаграмме рассеяния выше, мы видим, что существует умеренная или сильная степень положительной линейной связи.

(b) С другой стороны, у нас есть следующая таблица, в которой показаны расчеты, необходимые для вычисления корреляции Пирсона:

Икс

А ТАКЖЕ

XY

72

62

5184

3844

4464

69

41 год

4761

1681

2829

58

19

3364

361

1102

47

26

2209

676

1222

84

51

7056

2601

4284

62

15

3844

225

930

57 год

30

3249

900

1710 г.

45

15

2025 г.

225

675

Сумма

494

259

31692

10513

17216

Корреляция Пирсона r вычисляется как

\[r = \frac{n\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}-\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}{\sqrt{n\left( \sum\limits_{i=1}^{n}{x_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)}^{2}}}\sqrt{n\left( \sum\limits_{i=1}^{n}{y_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}^{2}}}} = \frac{8 \times {17216}-{494}\times {259}}{\sqrt{8\times {31692}-{494}^{2}}\sqrt{8\times 10513-{259}^{2}}}\]

\[=0.7692\]

(c) Коэффициент детерминации равен

\[{{r}^{2}}={0.7692}^{2}= {0.5917}\]

это означает, что 59,17% вариации Acres (y) объясняется Fires (x).

(d) Коэффициенты регрессии вычисляются

\[b=\frac{n\left( \sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}} \right)-\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}{n\left( \sum\limits_{i=1}^{n}{x_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)}^{2}}}=\frac{8 \times {17216}-{494}\times {259}}{8 \times {31692}-{494}^{2}}= 1.0297\]

and

\[a=\bar{y}-b \bar{x}={32.375}{+} {1.0297}\,\cdot \, {61.75} = {-31.208}\]

Это означает, что уравнение регрессии

\[\hat{y}= {-31.208}{+}{1.0297}\,x\]

Graphically:



Вопрос 3: Вы провели исследование, чтобы определить, коррелированы ли среднее время, проводимое в компьютерном классе каждую неделю, и оценка за компьютерный курс. Какой вывод вы бы сделали по этому вопросу, используя приведенные ниже данные?

student
# hours in lab
Course Grade
1
20
96
2
11
51
3
16
62
4
13
58
5
89
6
15
81
7
10
46
8
10
51

Решение: В следующей таблице показаны расчеты, необходимые для вычисления Пирсона. корреляция r : Мы получаем

X
Y


X·Y
20
96
400
9216
1920
11
51
121
2601
561
16
62
256
3844
992
13
58
169
3364
754
17
89
289
7921
1513
15
81
225
6561
1215
10
46
100
2116
460
10
51
100
2601
510
Sum
112
534
1660
38224
7925

Корреляция Пирсона r вычисляется как

\[r = \frac{n\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}-\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}{\sqrt{n\left( \sum\limits_{i=1}^{n}{x_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)}^{2}}}\sqrt{n\left( \sum\limits_{i=1}^{n}{y_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}^{2}}}} = \frac{8 \times {7925}-{112}\times {534}}{\sqrt{8\times {1660}-{112}^{2}}\sqrt{8\times 38224-{534}^{2}}}\]

\[=0.9217\]

Мы хотим проверить значимость коэффициента корреляции. В частности, мы хотим протестировать

\[\begin{align}{{H}_{0}}:\rho {=} 0 \\ {{H}_{A}}:\rho {\ne} 0 \\ \end{align}\]

Чтобы проверить нулевую гипотезу, мы используем t-тест. T-статистика вычисляется как



\[t= r \sqrt{\frac{n-2}{1-{{r}^{2}}}}= {0.9217} \times \sqrt{\frac{6}{1-{0.9217}^2}}= {5.8198}\]

Двустороннее p-значение для этого теста вычисляется как

\[p=\Pr \left( |{{t}_{6}}|>5.8198 \right)=0.0011\]

С \(p = 0.0011 {<} 0.05\) , а это означает, что мы отвергаем нулевую гипотезу H 0 .

Следовательно, у нас есть достаточно доказательств, чтобы поддержать утверждение о том, что корреляция между количеством часов в лаборатории и оценкой курса значительно отличается от нуля.

Войдите в свою учетную запись

У вас нет учетной записи?
зарегистрироваться

Сброс пароля

Вернуться к
авторизоваться

зарегистрироваться