Regresión lineal simple – Encuesta a estudiantes. Stata

Esta página muestra algunos procedimientos asociados al análisis de regresión simple. El ejercicio utiliza información recolectada a estudiantes (ver descripción de los datos). El alcance del ejercicio es el análisis gráfico de la relación entre dos variables, análisis de regresión lineal y examen de los resultados.

La secuencia de pasos sugeridos para realizar el ejercicio puede ser:

Llevar datos a Stata.


Los datos utilizados están en un archivo que delimita las información con tabulación.

El comando para traer la base de datos es:

import delimited http://rodrigotaborda.com/ads/datos/ee/encuesta_estudiantes_201810.txt, delimiters(tab) clear

en esta oportunidad la opción delimiters ilustra el caso para datos separados por tabulación y puede ser manipulado para cualquier otro caracter separador.

Generar nuevas variables y etiquetas.


Las variables que se van a utilizar en este ejemplo son las que reporten la calificación el primer semestre de la universidad, calificacón en el primer curso de cálculo y calificación en el curso de probabilidad y estadística.

Para el desarrollo de este ejemplo no se van a generar nuevas variables.

Para asignar una etiqueta a las variables se utilizan los siguientes comandos:

label var cal_primer_semestre "Calificación 1 semestre"
label var cal_curso_calculo_i "Calificación cálculo"
label var cal_curso_prob_est "Calificación prob. estad."

Hipótesis 1.


El análisis de regresión implica que se tiene una hipótesis de trabajo. En este caso se propone la posibilidad de explicar la calificación en los cursos de cálculo y probabilidad y estadística por la calificación que se obtuvo en el primer semestre. La lógica subyacente a esta hipótesis es que el buen desempeño en el primer semestre hace parte de la capacidad individual del estudiante que le permite tener un buen desempeño en cursos posteriores.

Calificación cálculo = f(Calificación 1 semestre)

En el análisis de regresión lineal, la relación propuesta se reexpresa como:

Calificación cálculo = β_0 + β_1 Calificación 1 semestre + ε

Examen gráfico de la relación.


En la siguiente gráfica se hace una dispersión de datos de la relación propuesta:

scatter cal_curso_calculo_i cal_primer_semestre

La gráfica sugiere inicialmente que existe una relación positiva entre las dos variables.

Un examen adicional se obtiene al ajustar una línea recta sobre a los datos.

twoway lfit cal_curso_calculo_i cal_primer_semestre

La primera inspección de la tendencia suerida por el ajuste lineal es que hay una relación positiva entre la calificación del primer semestre y la calificación del curso de cálculo. Para avanzar en el ejercicio de estudiar la relación, se puede agr

egar los datos originales. La dispersión de datos con el ajuste lineal superpuesto se obtiene así:

twoway (scatter cal_curso_calculo_i cal_primer_semestre) (lfit cal_curso_calculo_i cal_primer_semestre)

En este momento se puede observar que la relación positiva entre la calificación del curso de cálculo y la calificación del primer semestre no es tan fuerte como lo sugería la gráfica anterior, pero no deja de ser positiva.

Análisis de regresión.


El paso siguiente para estudiar la hipotesis propuesta es llevar a cabo una estimación formal de ecuación de regresión entre las variables estudiadas.

reg cal_curso_calculo_i cal_primer_semestre

El resultado del ejercicio no ofrece respaldo al cumplimiento de la hipótesis. Se está buscando establecer si la calificación del primer semestre puede explicar la calificación del curso de cálculo. Aunque la relación propuesta gráficamente sugiere que es cierto, el examen de la estimación de la relación niega esta posibilidad.

El coeficiente de la variable calificación del primer semestre es 0.13. Este coeficiente sugiere que entre dos estudiantes que tienen una diferencia en la calificación del primer semestre de una unidad, tendrán una diferencia en el curso de cálculo d

e 0.13. Sin embargo, al examinar la desviación estandard del coeficiente (0.12) no es posible respaldar la posibilidad de que el coeficiente sea cierto para la muestra examinada. Esta afirmación se propone al examinar el estadístico t y el valor probabilidad correspondiente a la prueba de hipótesis nula de que el coeficiente sea cero.

Al examinar el coeficiente asociado a la constante, se encuentra que, despues de examinar la calificación del primer semestre, el promedio de calificación del curso de cálculo es de 2.66. Este coeficiente es altamente significativo y permite hacer la afirmación definitiva que el valor 2.66 es el promedio de la materia.

Hipótesis 2.


Con las variables de interés es posible examinar una segunda hipótesis. La calificacion del primer semestre puede explicar la calificación del curso de probabilidad y estadística.

Calificación probabilidad / estadística = f(Calificación 1 semestre)

En el análisis de regresión lineal, la relación propuesta se reexpresa como:

Calificación probabilidad / estadística = β_0 + β_1 Calificación 1 semestre + ε

reg cal_curso_prob_est cal_primer_semestre

El resultado de la estimación de regresión es un poco mas satisfactorio que el anterior. La significancia estadística de la relación propuesta está sujeta a un poco menos de duda por tener un error estandard menor. Sin embargo, el resultado no permite hacer una

afirmación definitiva de la relación y poder extender el resultado a un grupo de estudiantes diferentes a la muestra estudiada.

Hipótesis 3.


Las hipótesis anteriores, al ser examinadas mediante regresión lineal, mostraron debilidad estadística. Una tercera hipótesis es explicar el desempeño del curso de probabilidad y estadística por el desempeño del curso de cálculo. En los ejercicios anteriores ambas variables eran variables dependientes, en este ejercicio la variable de calificación del curso de cálculo pasa a ser una variable explicativa. En las dos primeras hipótesis se proponía que el desempeño del estudiante el primer semestre no refleja apropiadamente su capacidad de trabajo en la universidad. Ahora se sugiere que el desempeño en el curso de cálculo puede explicar el desempeño del curso de estadística.

Calificación probabilidad / estadística = f(Calificación cálculo)

En el análisis de regresión lineal, la relación propuesta se reexpresa como:

Calificación probabilidad / estadística = β_0 + β_1 Calificación cálculo + ε

Análisis gráfico de la relación.


En la siguiente gráficas se reproduce el ejercicio de inspeccionar la relación entre la calificación del curso de estadística y el curso de cálculo. El ejercicio inicial es la gráfica de dispersion de datos:

scatter cal_curso_prob_est cal_curso_calculo_i

La dispersión de datos no sugiere una tendencia particular, a lo largo de diferentes valores de calificación en el curso de cálculo, hay amplia dispersión de valores de calificación del curso de probabilidad y estadística.

La línea de ajuste entre las dos variables se presenta a continuación

twoway lfit cal_curso_prob_est cal_curso_calculo_i

 

 

La línea de ajuste entre las variable sugiere informalmente, que hay una relación positiva entre las variables. Para confirmar esta posible relación se debe examinar formalmente mediante análisis de regresión.

El resultado del análisis de regresión sugiere que existe una relación positiva entre las variables de manera que el incremento de una unidad en la calificación de un estudiante en el curso de cálculo puede significar un incremento de 0.3 unidades en la calificación del curso de probabilidad y estadística. La significancia estadística de la variable es fuerte como para considerar que sea una relación sólida. La desviación etandard del coeficiente es 0.07, y el estadístico t propone que se rechaza la hipótesis nula de que el coeficiente es cero.