Contexto


En el tema de análisis de varianza I, iniciamos el estudio de la técnica multivariante denominada análisis de varianza en su modalidad de un solo factor. El objetivo principal de esa técnica es determinar si un conjunto de muestras tienen la misma media o no. 

Cuando tenemos más de un factor a la vez, tenemos que encontrar la manera de ampliar el análisis de varianza, con el fin de responder la misma pregunta anterior. La mayor ventaja que ofrece esta técnica sobre la anterior es que ahora podremos examinar interacciones entre los factores también. Las interacciones ocurren cuando los efectos de un factor sobre la variable dependiente dependen del nivel de los otros factores. El procedimiento para realizar un análisis de varianza de n factores es similar al del análisis de varianza de un factor. Los estadísticos asociados también se definirán de manera parecida, de tal forma que esta técnica será simplemente una generalización de la técnica anterior.

Preguntas detonadoras o de reflexión:

  1. ¿Consideras que las interacciones pueden ser consideradas como multiplicadores de un efecto? ¿En qué casos podría ocurrir?
  2. ¿Has considerado que —como parte de una estrategia comercial— no es lo mismo promover un producto o servicio por un solo medio que promoverlo en varios? Incluso, cada medio distinto puede tener un efecto único, pero al integrarlos juntos en una campaña, ¿cómo podrías demostrar que el efecto es mayor?

Explicación



En la mayoría de las situaciones que analizamos deseamos conocer si existen diferencias entre un par de muestras, pero influye más de un factor en su determinación. 

5.1 Análisis de varianza de un factor y pruebas de comparación múltiple

En el tema anterior, se trabajó con el análisis de varianza de un factor y se explicaron sus supuestos, sus objetivos y la forma de resolverlo. Definimos el análisis de varianza de un factor como la técnica ANOVA en la cual sólo influye un factor. El ANOVA es la técnica estadística que sirve para examinar las diferencias entre las medias de dos o más poblaciones.

Pruebas de comparación múltiple

Para evaluar si existe diferencia entre varias poblaciones, en donde sólo tenemos un factor, tuvimos que seguir cierto procedimiento (Malhotra, 2008):


  • Identificación de las variables dependiente e independiente. Por convención se denomina Y a la variable dependiente y a la variable independiente con categorías, y en el experimento para cada valor de X existe un valor Y a analizar con observaciones de Y.
  • Descomposición de la varianza total. La varianza total se descompone en SCentre scintra, donde SCentre  es la variación en las medias de las categorías de X. En el caso de SCintra no está explicada por X y, por tanto, se conoce como SCerror.
  • Medición de los efectos. Los efectos de X sobre se miden con SCentre  porque este valor está relacionado con la variación de las medias de las categorías de X, la magnitud relativa de SCentre aumenta conforme aumentan las diferencias entre las medias de Y en las categorías de X.
  • Prueba de la significancia. En el análisis de varianza de un factor, el interés reside en poner a prueba la hipótesis nula que plantea que las medias de las categorías son iguales en la población, o sea: µ1 =µ2 = µ3= … = µc. La hipótesis nula se prueba con el estadístico F, tomando en cuenta la proporción entre los cuadrados medios CM:

El estadístico F con (c-1) y (N-c) grados de libertad que se busca en tablas para determinar si está en el nivel de confianza.

  • Interpretación de los resultados. Si la hipótesis nula no se rechaza, la variable independiente no tiene un efecto significativo sobre la variable dependiente; en cambio, si la hipótesis nula se rechaza, el efecto de la variable independiente es significativo.

5.2 Análisis de varianza con dos factores con interacción

En la investigación de mercados frecuentemente necesitamos conocer el efecto de más de un factor al mismo tiempo como puede ser (Malhotra, 2008):

  • ¿Cómo varían las intenciones de los consumidores al comprar determinada marca, de acuerdo a distintos niveles de precios y presentación?
  • ¿De qué forma interactúan los niveles de publicidad para afectar las ventas de una marca?
  • ¿Cómo afecta al consumo de determinada marca la preparación del consumidor y su edad al mismo tiempo?
  • ¿Qué efecto tiene la familiaridad del consumidor y la imagen de la tienda sobre su preferencia de consumo en la misma?

Para poder determinar este tipo de efectos, se puede emplear un análisis de varianza de n factores. Una de las principales ventajas de esta técnica es que permite al investigador examinar interacciones entre los factores. Las interacciones ocurren cuando los efectos de un factor sobre la variable dependiente dependen del nivel (categoría) de los otros factores. El procedimiento para realizar el análisis de varianza de factores es similar al del análisis de varianza de un factor. Los estadísticos asociados con el análisis de varianza de n factores también se definen de forma similar (Pérez, 2014; Malhotra, 2008).

En este caso, la variación total se descompone de la siguiente manera:

SCtotal = SC debida a X1 + SC debida a X2+ SC debida a la interacción de X1 X2 + SCintra o

Un mayor efecto de X1 se reflejará en una mayor diferencia promedio en los niveles de X1 y en una SCX1 más grande. Lo mismo ocurre con el efecto X2. Cuanto más grande sea la interacción entre X1 X2, mayor será SCX1X2. Si X1 X2  son independientes, SCX1X2  tendrá valores cercanos a cero.

La fuerza del efecto llamado efecto general omúltiple se define como:

En este caso, la significancia del efecto general se prueba con una prueba F:

Con gln grados de libertad del numerador y gld grados de libertad del denominador que están definidos por:

Si el efecto general es significativo, conviene examinar la significancia del efecto de la interacción(Pérez, 2014). El análisis es muy similar al anterior:

Ejemplo

En unas pruebas que se desarrollaron para evaluar vacunas se utilizaron tres concentraciones de determinado suero. Se midió el porcentaje de eficiencia de la vacuna y se realizó un experimento en cuatro bloques para evaluar el comportamiento de las vacunas:

  250gr/lt 215gr/lt 143gr/lt Testigo
Bloque I 49.86 45.59 0.59 46.18
Bloque II 45.25 49.21 50.12 49.86
Bloque III 56.22 45.12 49.87 48.16
Bloque IV 47.37 46.14 49.02 44.73

Se plantea la hipótesis:

Ho: todas las concentraciones del suero producen el mismo efecto.
Ha: al menos una de las concentraciones del suero produce un efecto distinto.

Para resolver el Excel, se capturan todos los datos y se procede de la siguiente manera:

Se selecciona: Datos / Análisis de datos / Análisis de varianza de dos factores con una sola muestra por grupo / Aceptar.

Como en el caso del Análisis de varianza de un factor se seleccionan los datos en los cuadros de diálogo en cuanto a rango de entrada, nivel de significancia y rango de salida.

Interpretación de resultados

Podemos observar que el valor calculado de F  fue de 1.395, que resulta inferior al valor crítico de 3.86 (llamado valor tabular), que da un valor-p = 0.306 con un nivel de significancia del 0.05.

En el caso de F para bloque es de 0.75, que resulta ser inferior al valor crítico de 3.86, lo cual es equivalente a analizar su valor-p correspondiente de 0.54 con un nivel de significancia de 0.05.

De acuerdo a los resultados, se puede afirmar que no hay diferencia en el efecto de las tres concentraciones de la vacuna. Tampoco hay diferencia entre aplicar o no la vacuna, puesto que no hay diferencia con el testigo tampoco.

Cierre


El análisis de varianza de dos o más factores permite estudiar simultáneamente los efectos de dos o más fuentes de variación. En el análisis de varianza de dos o más factores se tienen que calcular los valores esperados de los distintos cuadrados medios, es decir, el cuadrado medio intra, el cuadrado medio entre y el cuadrado medio de las interacciones, y contrastarlos con el estadístico F con los grados de libertad correspondientes. 

Conviene probar la hipótesis de interacción entre factores, y si se rechaza esa hipótesis, se puede realizar el análisis como varianza de un factor por separado para cada factor, ya que estamos seguros de que no hay interacción entre los factores.

El análisis de varianza es un método muy utilizado en forma conjunta con otros métodos, ya que aporta información acerca de la igualdad de medias o no de muestras distintas.

¿Piensas que las interacciones pueden ser siempre relevantes o que existen casos en que los efectos individuales tienen un mayor impacto que el efecto en conjunto? ¿Consideras que las variables a analizar siempre deben ser métricas?

Checkpoint


Antes de concluir el tema, asegúrate de poder contestar las preguntas que se enlistan a continuación.

Instrucciones: Haz clic en cada pregunta para conocer su respuesta.

La prueba de hipótesis para un ANOVA de 1 factor es semejante a la de n factores; en cualquier caso, la hipótesis nula siempre va a establecer que las variables independientes no tienen efecto sobre la variable dependiente.

Hasta ahora habíamos visto cómo distintos niveles en una variable independiente generan resultados distintos en el promedio de la variable dependiente. Existen interacciones únicamente cuando tenemos dos o más variables independientes, llamadas factores. Las interacciones implican que un determinado factor tendrá niveles distintos en los otros factores y que, a su vez, los resultados en la variable dependiente cambiarán con cada nivel del factor.

Referencias


Libro de texto:

  • Malhotra, N. (2008). Investigación de Mercados: Un enfoque aplicado. (5ª ed.) México: Pearson. 
    ISBN: 9789702611851

Libros de apoyo:

  • Malhotra, N. (2008). Investigación de Mercados: Un enfoque aplicado. (5ª ed.) México: Pearson. 
    ISBN: 9789702611851
  • Pérez, L.C. (2014). Técnicas de Análisis Multivariante de Datos. España: Pearson /Prentice Hall. ISBN: 9788483229019

Glosario


ANCOVA (análisis de covarianza): procedimiento avanzado del análisis de varianza donde los efectos de una o más variables métricas extrañas se eliminan de la variable dependiente antes de realizar el ANOVA.

ANOVA (análisis de varianza): técnica estadística que sirve para examinar las diferencias entre las medias de dos o más poblaciones.

Cuadrado medio: el cuadrado medio es la suma de cuadrados dividida entre los grados de libertad adecuados. 

Estadístico F: la hipótesis nula que plantea que las medias de las categorías son iguales en la población se pone a prueba usando un estadístico F, que se basa en la proporción del cuadrado medio con respecto a y el cuadrado relacionado con el error.

Eta2múltiple (): la fuerza del efecto conjunto de dos o más factores o el efecto general.

Factores: variables independientes categóricas. Todas las variables independientes deben ser categóricas (no métricas) para utilizar la prueba ANOVA.

Interacciones: cuando se evalúa la relación entre dos variables, ocurre una interacción si el efecto de X1 depende del nivel de X2 y viceversa.

SCentre (también simbolizado por SCX): es la variación de Y relacionada con la variación de las medias de las categorías de X. Ésta representa la variación entre las categorías de X o la porción de la suma de cuadrados en relacionada con X.

SCdentro (también conocida como SCerror): es la variación en debida a la variación dentro de cada una de las categorías de X. Esta variación no está explicada por X.

SCY: la variación total en Y.

Significancia del efecto general: prueba de que existen algunas diferencias entre algunos de los grupos de tratamiento.

Tratamiento: en el ANOVA, una combinación particular de niveles o categorías de factores.