Los estudiantes de Ciencias están muy familiarizados con el ajuste de una variable dependiente Y de la variable independiente X a una función sencilla. La más cómoda de todas es la función que representa una recta. Cuando ajustamos unos datos medidos a una recta, lo hacemos mediante una regresión lineal.
Para los que no han venido aplicando este modelo estadístico tan sencillo como útil en la investigación de algunas relaciones causa-efecto, hoy vamos a ver qué es la regresión lineal, cómo ayuda al investigador y cuál es la manera de aplicarla bien en un análisis de datos. También te contamos cómo saber si esa recta que ajusta tus mediciones es o no fiable.
Qué es la regresión lineal
La regresión lineal es un modelo estadístico empleado para relacionar una o más variables independientes con una variable dependiente.
El objetivo principal de la regresión lineal es predecir el comportamiento de una variable dependiente, o de varias, dentro de un intervalo de valores.
Para determinar cuál es la mejor recta de varias posibles, casi siempre se acepta el criterio de mínimos cuadrados: la recta idónea será aquella en la que el sumatorio de los cuadrados de las distancias de los puntos con los valores experimentales a la recta sea el mínimo.
Pero ¿cuántos tipos de regresiones lineales existen? Podemos utilizar dos criterios:
Dependiendo de si la recta pasa por el origen de coordenadas forzosamente o no
Cuando trabajamos con una variable independiente puede suceder que no sea admisible que la recta buscada no pasa por el origen de coordenadas porque buscamos una relación causa-efecto pura. Por ejemplo, cuando medimos la concentración de un soluto con la absorbancia, empleamos una solución sin el soluto para calibrar el instrumento.
Idealmente, buscamos una recta que pase por el punto (0,0), aunque vamos a ver más adelante cómo puede ser mejor adoptar una ecuación del tipo y = a bx, donde a es una constante.
Regresión lineal simple o múltiple
La regresión lineal simple ajusta los datos a una recta en la que intervienen solo la variable independiente X y la variable dependiente Y.
Cuando hacemos esto con más de una variable dependiente de X, hablamos de regresión lineal múltiple y trabajamos, entonces, con cálculo matricial. Por ejemplo, la ecuación y = 8 2a – 3b 5c es también un modelo de regresión lineal, ya que relaciona matemáticamente tres variables independientes (a, b, c) con una variable dependiente (y) y, además, la relación entre las variables es lineal.
Para qué se usa la regresión lineal en investigación
Si la regresión lineal es tan habitual en la investigación como para que compense determinar los intervalos de validez de la misma, será porque permite algo más que otras aproximaciones. Por tanto, ¿para qué se usa la regresión lineal?
Predicción de resultados que se puedan ajustar con una función y = ax o y = ax b
Este es el uso recogido en el objetivo de la propia regresión lineal. Y es muy utilizado en:
- Química analítica cuantitativa: especialmente en la determinación de pequeñas concentraciones de un soluto mediante la medición de la absorbancia.
- Epidemiología: para determinar el aumento del riesgo de mortalidad o morbilidad asociado a una variable, como puede ser el consumo de tabaco o la ingesta de dosis superiores a las indicadas como seguras para un fármaco o un potencial tóxico.
Identificación de algunas relaciones causa-efecto
Las variables que tienen una dependencia lineal son las que identificamos con mayor facilidad como un caso de causa y efecto. No pierdas de vista que la existencia de una correlación no implica causalidad. Si X e Y se relacionan entre sí mediante una recta, podría deberse a la existencia de una tercera variable Z que no se ha considerado en el estudio.
Por este motivo, los experimentos se suelen llevar a cabo manteniendo todas las variables inmutables, salvo una, para ir recogiendo datos. También se puede aplicar la regresión lineal múltiple y operar con las diferentes ecuaciones que relacionan entre sí las variables independientes consideradas entre sí y con la variable dependiente.
Validación de hipótesis
A veces es posible validar la hipótesis nula trabajando con una regresión lineal en vez de hacerlo con una curva gaussiana. Por ejemplo, “a mayor número de días lluviosos al año, mayores ventas de paraguas por habitantes y año”.
Si no es posible descartar la hipótesis nula con un nivel de significación elevado, asumimos que es válida, hasta que se refute.
Recuerda que debes incluir en tu tesis las gráficas de los datos que ajustan a la recta con la que vas a trabajar. En caso de utilizar las de otra investigación, estás obligado a citarlas de manera correcta, casi siempre según la norma APA.
En tesisdoctoralesonline.com imprimimos tu tesis con equipos de calidad, de modo que no necesitas preocuparte de cuestiones como el grosor de las funciones de ajuste en sus correspondientes gráficas. De todas formas, si tienes dudas sobre cómo queda mejor presentada tu tesis, estaremos encantados de ayudarte.
Cómo realizar un análisis de regresión lineal
El paso a paso para una investigación es el siguiente:
Recopilación de datos
Siguiendo un protocolo y, si eres doctorando, habiendo aplicado antes el diseño de experimentos. Estos datos pueden proceder de un laboratorio o de mediciones de campo. Un ejemplo de este último caso sería la toma de muestras de agua de diferentes ríos para conocer sus niveles de DQO y DBO.
Introducción de los datos obtenidos para obtener la ecuación
En la calculadora, en la hoja de cálculo o programando con código, para obtener las dos rectas posibles que satisfacen el criterio de mínimos cuadrados, es decir, la que pasa por fuerza por el origen de coordenadas y la que no.
Este punto es delicado porque en él tienes que eliminar posibles errores experimentales. Algunos son obvios y otros no lo son tanto. Además, en la naturaleza existen muchos fenómenos que se ajustan a la linealidad solo en rango de valores, y hay que estar atento para determinar cuándo esa medida inicial o final ya señala que estamos trabajando fuera de ese rango, como sucede con las mediciones de absorbancia o con los ciclos de histéresis.
Coeficiente de correlación lineal r
Es un valor, comprendido entre -1 y 1, que nos indica si hay tendencia o no hacia una relación de proporcionalidad.
Cuando r > 0, las variables dependiente e independiente crecen en el mismo sentido o, dicho de otro modo, la recta presenta una pendiente positiva.
Si r < 0, el aumento de la variable independiente se traduce en una disminución en la variable dependiente.
Un valor r = 0 indicaría que no hay correlación lineal alguna.
En ocasiones, se trabaja con r2. Al elevar el coeficiente de correlación al cuadrado, obtenemos un valor comprendido entre 0 y 1 que nos informa acerca de la bondad del ajuste a la recta calculada. En caso de duda, podemos probar qué recta ajusta mejor: la que obligatoriamente pasa por el punto (0,0) o la que está obligada a cumplir este requisito.
Interpretación de resultados
Como en cualquier tratamiento estadístico de datos. Esta interpretación se apoyará con r2 y en el objetivo perseguido por ti al aplicar cada regresión lineal en particular.
Predicción de otros valores
Si has hecho bien el análisis de regresión lineal hasta el punto anterior y llegas a la conclusión de que la variable dependiente analizada ajusta bien a una recta, ya determinada, estás de suerte. Ahora puedes obtener cualquier dato situado entre el valor menor y mayor de la variable independiente de los que has medido, con tan solo leerlo en la gráfica o aplicar la ecuación de la recta.
La regresión lineal es un modelo matemático de aproximación a fenómenos naturales muy utilizado en la investigación por su sencillez y porque permite más cosas que la predicción de valores dentro del rango de validez.
Puede aplicarse de manera simple o combinando más de una variable independiente que afecten a una única variable dependiente. Además, el coeficiente de correlación nos aporta información extra, directamente o al elevarlo al cuadrado, como puede ser si nuestra recta ajusta bien a los datos medidos o si, por el contrario, no es una aproximación fina.