Contexto
En los dos temas previos, se trabajó el análisis de varianza (ANOVA) de uno y dos factores, y en todo momento se pensó que la variación por error era lo suficientemente pequeña como para no alterar nuestros resultados.
Hay situaciones en las que esas variaciones por error pueden afectar nuestro experimento; para ello, se utiliza el método denominado diseño de bloques al azar.
El diseño de bloques al azar surge por la variabilidad proveniente de un factor de ruido que puede afectar los resultados. Al utilizar bloques se puede reducir y controlar la varianza del error experimental, para tener mayor precisión.
Por otro lado, el análisis de covarianza sirve para ajustar la variable respuesta por el efecto de la covariable, que es un valor que se obtiene a partir de las posibles diferencias entre los grupos. El análisis de la covarianza es una combinación entre el análisis de varianza (ANOVA) y el análisis de regresión múltiple y se le denomina ANCOVA.
La ANCOVA es un procedimiento estadístico que permite eliminar la heterogeneidad causada en la variable de interés (dependiente) por la influencia de una o más variables cuantitativas, denominadas covariables. El fundamento del ANCOVA es un ANOVA al que, a la variable dependiente, se le ha eliminado el efecto predicho por una o más covariables por regresión lineal múltiple. El incluir covariables aumenta la potencia estadística porque reduce la variabilidad.
Preguntas detonadoras o de reflexión:
Tanto el uso de bloques al azar como el uso de covariables ayudan a analizar mejor la variabilidad en la variable de interés al mejorar la precisión.
Explicación
6.1 Diseño de bloques al azar
De acuerdo a Hair (2007), en estadística, se conoce como bloque a un grupo de observaciones que tienen condición de unicidad estadística, es decir, pueden ser analizadas e interpretadas sólo de modo conjunto.
En general, un bloque puede estar fijado o establecido por el investigador de forma arbitraria. En ese caso, se dice que el bloque es no aleatorio. Cuando un bloque está fijado, configurado y seleccionado al azar se dice que el bloque es un bloque aleatorio.
El diseño de bloque aleatorizado representa una alternativa al ANOVA y al ANCOVA. Se somete a los sujetos a medidas que implican un efecto adicional (los bloques), y se les agrupa de acuerdo con sus puntuaciones. Los grupos de sujetos se convierten en los niveles de las variables independientes de interés en el diseño factorial (Malhotra, 2008). La interpretación del efecto principal de las variables independientes es directa. En el caso de la ANCOVA (análisis de covarianza) se elimina la variación debida a las covariables de la estimación de la varianza del error y se le evalúa como un efecto principal separado (Pérez 2014; Malhotra, 2008).
Es importante tomar en cuenta que la característica por la cual se hace el bloqueo no es la característica que interesa evaluar, sino que —al tener una variable que sospechamos puede influenciar la variable respuesta— si queremos eliminar su efecto, la involucramos en el modelo.
Ventajas y desventajas del diseño de bloques completos al azar
Pérez (2014) y Hair (2007) indican la forma de construir un modelo lineal:
Donde:
Yij es la lectura del tratamiento i-ésimo en el j –ésimo bloque.
μ es el promedio poblacional de la variable respuesta.
Tj es el efecto del tratamiento ‘i’ con i = 1, 2, …., t.
bj es el efecto del bloque j con j = 1, 2, …. R.
εij es el efecto asociado con la lectura del í-esimo tratamiento en el j-ésimo bloque.
Fórmulas del diseño de bloques al azar
F de V | GL | Suma de cuadrados | Cuadrados medios | FC |
Tratamientos | t – 1 | T=ΣYi2 / (r-TC) | SC T=T / (t-1) | |
Bloques | r – 1 | B = ΣYj2 / (t-TC) | SCF = B / (r-1) | |
Error | (t -1)(r-1) | E = Tot - T - B | SCF = E / (t-1) (r-1) | |
Total | n – 1 | Tot = ΣΣYij2 - TC |
Donde:
F de V: Fuente de Variación. TC: Término de corrección = Y2.. /n .
GL: Grados de libertad. Yi: Total del tratamiento ‘i’.
t: Número de tratamientos. Yj: Total del bloque ‘j’ .
r: Número de bloques.
El análisis se puede resolver en Excel, simplemente encontrando la suma de cuadrados y los cuadrados medios, como se realizó en el análisis de varianza o se puede utilizar Excel en Datos/Análisis de datos/ Análisis de varianza de dos factores con una sola muestra por grupo (Malhotra, 2008).
Para revisar un ejemplo, haz clic aquí.
6.2 Análisis de covarianza
Al examinar las diferencias entre las medias de la variable dependiente relacionadas con el efecto de las variables independientes controladas, muchas veces es necesario tomar en cuenta la influencia de las variables independientes no controladas.
Malhotra (2008) dice que el análisis de covarianza es una combinación de dos técnicas:
En el análisis de covarianza:
Por ejemplo:
En estos casos es útil usar el análisis de covarianza
Al igual que en el análisis de regresión existen distintos análisis de covarianza (Unifactorial y Multifactorial); para este curso usaremos sólo el análisis Unifactorial.
Covarianza Unifactorial. La respuesta Y está relacionada con una variable cualitativa t y una o más variables cuantitativas X (Pérez, 2014; Malhotra, 2008; Hair, 2007).
La covariable es usada para eliminar variaciones extrañas de la variable dependiente, ya que los efectos de los factores son muy importantes. La variación de la variable dependiente, debido a las covariables, se elimina mediante un ajuste del valor promedio de la variable dependiente dentro de cada tratamiento y después se realiza un análisis de varianza con las puntuaciones ajustadas. El nivel de significancia del efecto combinado de las covariables, así como del efecto de cada covariable, se prueba con el estadístico F adecuado (Malhotra 2008).
Pérez (2014) y Malhotra (2008) refieren que el modelo unifactorial con una covariable cumple la siguiente fórmula:
Donde:
τi representa el efecto producido por el tratamiento i- ésimo.
B representa el coeficiente de regresión lineal.
xij representa el valor de la covariable correspondiente a la observación yij .
x representa la media de la covariable.
Eij representa el error aleatorio.
En un diseño aleatorizado, la suma total de cuadrados puede descomponerse en suma de cuadrados entre tratamientos y en suma de cuadrados residual (de forma semejante al análisis de varianza).
Ejemplo:
Haz clic en la imagen para ver el ejemplo.
Finalmente, dentro de la interpretación de la ANOVA, un aspecto importante en el análisis de varianza muchas veces es el de las interacciones. Las interacciones surgen al realizar un ANOVA de dos o más factores. Si en el resultado ANOVA obtenemos que no hay interacción, significa que las interacciones no son significativas. Un efecto de interacción ocurre cuando el efecto de una variable independiente, sobre una variable dependiente, difiere para las distintas categorías o niveles de otra variable independiente. El ANCOVA puede servir para minimizar esas interacciones al corregir el modelo.
Cierre
En este módulo se vio que una de las principales aplicaciones de ANOVA, MANOVA Y MANCOVA es la descomposición de la variabilidad total de un procedimiento en partes, lo cual permite determinar si hay diferencia en diferentes procesos y cuál proceso es el que afecta más.
En el ANOVA y en el ANCOVA la variable dependiente es métrica y todas las variables independientes son categóricas o una combinación de métricas y categóricas. El análisis de varianza de n factores implica el examen simultáneo de dos o más variables independientes categóricas. Una de sus principales ventajas es que se pueden estudiar las interacciones entre las variables independientes.
La significancia del efecto general, los términos de interacción y los efectos principales de factores individuales se examinan a través del estadístico F.
El ANCOVA incluye al menos una variable independiente categórica y una de intervalo o métrica. La variable independiente métrica o covariable se utiliza para eliminar variaciones extrañas de la variable dependiente.
En este módulo, el objetivo principal fue identificar diferencias entre poblaciones distintas por medio del análisis de varianza de uno y de dos factores y del análisis de covarianza. Con esto se termina con los análisis de varianza, y estás listo para iniciar un nuevo reto, con análisis multivariados muy distintos.
Antes de iniciar el siguiente tema, te recomiendo reflexionar sobre los distintos usos que pueden tener los ANOVA en múltiples ambientes.
Checkpoint
Los bloques aleatorizados son muy útiles cuando las unidades experimentales no son homogéneas, en cuyo caso es conveniente agruparlas en bloques que estén homogeneizados. A cada bloque se le dará un tratamiento distinto, de manera aleatoria y se analizarán los resultados.
Debido a que la variabilidad que se observa es ocasionada por una variable cuantitativa, hasta ahora, las variables independientes habían sido no métricas; sin embargo, en casos reales, muchas veces la variabilidad de Y se ve influenciada por una variable métrica. En estos casos, se busca disminuir su efecto homogeneizando los resultados a través de una regresión, lo que aumentará la potencia estadística, mejorando así la interpretación de los resultados.
Referencias
Libro de texto:
Libros de apoyo:
Glosario
ANCOVA (análisis de covarianza): procedimiento avanzado del análisis de varianza donde los efectos de una o más variables métricas extrañas se eliminan de la variable dependiente antes de realizar el ANOVA.
ANOVA (análisis de varianza): técnica estadística que sirve para examinar las diferencias entre las medias de dos o más poblaciones.
Cuadrado medio: el cuadrado medio es la suma de cuadrados dividida entre los grados de libertad adecuados.
Estadístico F: la hipótesis nula que plantea que las medias de las categorías son iguales en la población se pone a prueba usando un estadístico F, que se basa en la proporción del cuadrado medio con respecto a X y el cuadrado relacionado con el error.
Eta2múltiple (): la fuerza del efecto conjunto de dos o más factores o el efecto general.
Factores: variables independientes categóricas. Todas las variables independientes deben ser categóricas (no métricas) para utilizar la prueba ANOVA.
Interacciones: cuando se evalúa la relación entre dos variables, ocurre una interacción si el efecto de X1 depende del nivel de X2 y viceversa.
Significancia del efecto general: prueba de que existen algunas diferencias entre algunos de los grupos de tratamiento.
Tratamiento: en el ANOVA una combinación particular de niveles o categorías de factores.