Tutorial de regresión lineal




Ejemplos de problemas de regresión lineal



Pregunta 1: Las fórmulas para la línea de mínimos cuadrados se hallaron resolviendo el sistema de ecuaciones

\[nb+m\left( \sum{x} \right)=\sum{y}\]

\[b\left( \sum{x} \right)+m\left( \sum{x^2} \right)=\sum{xy}\]

Resuelva estas ecuaciones para b y m para demostrar que

\[\begin{align} & m=\frac{n\left( \sum{xy} \right)-\left( \sum{x} \right)\left( \sum{y} \right)}{n\left(\sum{{{x}^{2}}} \right)-{{\left( \sum{x} \right)}^{2}}} \\ & b=\frac{\sum{y-m\left( \sum{x}\right)}}{n} \\ \end{align}\]

Solución: Desde

\[ nb+m\left( \sum{x} \right)=\sum{y}\]

\[b\left( \sum{x} \right)+m\left( \sum{x^2} \right)=\sum{xy}\]

tenemos dos ecuaciones y dos incógnitas (myb)

Obtenemos que multiplicando la primera ecuación por \(\left( \sum{x} \right)\) y la segunda por -n obtenemos

\[\begin{align} & nb\left( \sum{x} \right)+m{{\left( \sum{x} \right)}^{2}}=\left( \sum{y}\right)\left(\sum{x} \right) \\ & -nb\left( \sum{x} \right)-mn\left( {{\sum{x}}^{2}}\right)=n\sum{xy} \\ \end{align}\]

y ahora agregando estos:

\[m\left( {{\left( \sum{x} \right)}^{2}}-n\left( {{\sum{x}}^{2}} \right) \right)=\left( \sum{x} \right)\left(\sum{y} \right)-n\left( \sum{xy} \right)\]

\[\Rightarrow \,\,\,\,m=\frac{\left( \sum{x} \right)\left( \sum{y} \right)-n\left( \sum{xy} \right)}{{{\left( \sum{x} \right)}^{2}}-n\left( {{\sum{x}}^{2}} \right)}=\frac{n\left( \sum{xy} \right)-\left( \sum{x} \right)\left( \sum{y} \right)}{n\left( {{\sum{x}}^{2}} \right)-{{\left( \sum{x} \right)}^{2}}}\]

Ahora, de esta ecuación:

\[nb+m\left( \sum{x} \right)=\left( \sum{y} \right)\]

podemos resolver por segundo :

\[nb+m\left( \sum{x} \right)=\left( \sum{y} \right)\,\,\Rightarrow \,\,\,nb=\left( \sum{y} \right)-m\left( \sum{x} \right)\,\Rightarrow \,\,\,b=\frac{\left( \sum{y} \right)-m\left( \sum{x} \right)}{n}\]



Pregunta 2: Determine el coeficiente de correlación y haga un gráfico de la línea de regresión con el coeficiente de regresión para el siguiente conjunto de datos.

Incendios forestales y acres quemados. El número de incendios y el número de acres quemados son los siguientes

Incendios (x)

72

69

58

47

84

62

57

45

Acres (y)

62

41

19

26

51

15

30

15


Solución: (a) Se obtiene el siguiente diagrama de dispersión:

Con base en el diagrama de dispersión anterior, observamos que hay un grado moderado a fuerte de asociación lineal positiva.

(b) Por otro lado, tenemos la siguiente tabla que muestra los cálculos necesarios para calcular la correlación de Pearson: Obtenemos

X

Y

X · Y

72

62

5184

3844

4464

69

41

4761

1681

2829

58

19

3364

361

1102

47

26

2209

676

1222

84

51

7056

2601

4284

62

15

3844

225

930

57

30

3249

900

1710

45

15

2025

225

675

Suma

494

259

31692

10513

17216

La correlación de Pearson r se calcula como

\[r = \frac{n\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}-\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}{\sqrt{n\left( \sum\limits_{i=1}^{n}{x_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)}^{2}}}\sqrt{n\left( \sum\limits_{i=1}^{n}{y_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}^{2}}}} = \frac{8 \times {17216}-{494}\times {259}}{\sqrt{8\times {31692}-{494}^{2}}\sqrt{8\times 10513-{259}^{2}}}\]

\[=0.7692\]

(c) El coeficiente de determinación es

\[{{r}^{2}}={0.7692}^{2}= {0.5917}\]

lo que significa que el 59.17% de la variación en Acres (y) se explica por Incendios (x).

(d) Los coeficientes de regresión se calculan

\[b=\frac{n\left( \sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}} \right)-\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}{n\left( \sum\limits_{i=1}^{n}{x_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)}^{2}}}=\frac{8 \times {17216}-{494}\times {259}}{8 \times {31692}-{494}^{2}}= 1.0297\]

and

\[a=\bar{y}-b \bar{x}={32.375}{+} {1.0297}\,\cdot \, {61.75} = {-31.208}\]

Esto significa que la ecuación de regresión es

\[\hat{y}= {-31.208}{+}{1.0297}\,x\]

Graphically:



Pregunta 3: Ha realizado un estudio para determinar si el tiempo promedio que pasa en el laboratorio de computación cada semana y la calificación del curso en un curso de computación estaban correlacionados. Utilizando los datos que se proporcionan a continuación, ¿qué conclusión sacaría sobre este tema?

student
# hours in lab
Course Grade
1
20
96
2
11
51
3
16
62
4
13
58
5
89
6
15
81
7
10
46
8
10
51

Solución: La siguiente tabla muestra los cálculos necesarios para calcular Pearson correlación r : Obtenemos

X
Y


X·Y
20
96
400
9216
1920
11
51
121
2601
561
16
62
256
3844
992
13
58
169
3364
754
17
89
289
7921
1513
15
81
225
6561
1215
10
46
100
2116
460
10
51
100
2601
510
Sum
112
534
1660
38224
7925

La correlación de Pearson r se calcula como

\[r = \frac{n\sum\limits_{i=1}^{n}{{{x}_{i}}{{y}_{i}}}-\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}{\sqrt{n\left( \sum\limits_{i=1}^{n}{x_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{x}_{i}}} \right)}^{2}}}\sqrt{n\left( \sum\limits_{i=1}^{n}{y_{i}^{2}} \right)-{{\left( \sum\limits_{i=1}^{n}{{{y}_{i}}} \right)}^{2}}}} = \frac{8 \times {7925}-{112}\times {534}}{\sqrt{8\times {1660}-{112}^{2}}\sqrt{8\times 38224-{534}^{2}}}\]

\[=0.9217\]

Queremos probar la significancia del coeficiente de correlación. Más específicamente, queremos probar

\[\begin{align}{{H}_{0}}:\rho {=} 0 \\ {{H}_{A}}:\rho {\ne} 0 \\ \end{align}\]

Para probar la hipótesis nula, utilizamos una prueba t. La estadística t se calcula como



\[t= r \sqrt{\frac{n-2}{1-{{r}^{2}}}}= {0.9217} \times \sqrt{\frac{6}{1-{0.9217}^2}}= {5.8198}\]

El valor p de dos colas para esta prueba se calcula como

\[p=\Pr \left( |{{t}_{6}}|>5.8198 \right)=0.0011\]

Desde \(p = 0.0011 {<} 0.05\) , y esto significa que rechazamos la hipótesis nula H 0 .

Por lo tanto, tenemos suficiente evidencia para respaldar la afirmación de que la correlación entre el número de horas en el laboratorio y la calificación del curso es significativamente diferente de cero.

iniciar sesión

No tiene una membresia?
Regístrate

restablecer la contraseña

Regístrate