Contexto


Estás a punto de entrar en el último tema del curso: ecuaciones estructurales. Ésta es una técnica multivariada que pareciera en una sola, varias herramientas que ya viste anteriormente, pero las integra de una manera especial: para probar modelos.

Las ecuaciones estructurales combinan la regresión múltiple y el análisis factorial con la intención de evaluar las muy complejas interrelaciones de dependencia e incorporar los efectos del error de medida sobre los coeficientes estructurales al mismo tiempo.

Por ejemplo: ¿Te has preguntado qué fue primero, si el huevo o la gallina? Pues ahora, imagínate que pudieras plasmarlo en un modelo en el que la gallina necesita del gallo para producir el huevo, pero que a su vez, el huevo requiere de calor para subsistir y de la gallina para ser puesto. ¡Claro! Eso lo sabes, pero ¿y si necesitaras demostrarlo?

En muchas ocasiones, en marketing se tienen ideas sobre lo que ocurre o sobre lo que influye en el comportamiento de los clientes. Las ecuaciones estructurales son la herramienta ideal para probar todas esas teorías y demostrar si son ciertas o no.


Preguntas detonadoras o de reflexión:

  1. ¿Consideras que deban plasmarse en un modelo de manera distinta las variables que son interdependientes de las que son dependientes? ¿Cómo piensas que se represente el error?
  2. En ocasiones, para facilitar la comprensión, los modelos limitan o se simplifican, eliminando variables. ¿Qué podría ocurrir si no contemplas todas las variables dentro de un modelo de ecuaciones estructurales? ¿Consideras que existan diferencias entre un modelo que contempla más variables que uno que contempla menos, pero que buscan medir lo mismo?

Explicación


El modelo de ecuaciones estructurales (SEM) es un procedimiento para calcular una serie de relaciones de dependencia entre un conjunto de conceptos o construcciones representada por múltiples variables medidas e incorporado en un modelo integrado (Malhotra, 2010).

Los aspectos distintivos del SEM son (Malhotra, 2010):

Como podrá constatarse los SEM están conformados por un modelo de medida y un modelo estructural. El primero obedece las reglas del análisis de factores; mientras que el segundo obedece al funcionamiento del análisis de senderos (path analysis) (Malhotra, 2010; Hair, 2007).

15.1 Variables latentes

Las variables manifiestas u observables son aquellas que se miden directamente. Así pues, llevan este nombre si y sólo si su valor se obtiene mediante un experimento muestral real. Se representan es a través de cuadrados o rectángulos. En general se les asignan las letras X y Y.



Las variables latentes o no observables son aquéllas que no pueden ser medidas directamente. Entonces, cualquier variable que no pueda ser directamente observada debe ser considerada como no observable. Se puede decir que hablamos sobre variables abstractas, que representan conceptos unidimensionales (Malhotra, 2010; Hair, 2007).

Entonces, ya que las variables latentes corresponden a conceptos, son variables hipotéticas que varían en su grado de abstracción. La inteligencia, la clase social, el poder y las expectativas, son ejemplos de variables latentes abstractas creadas en la teoría.

Las variables latentes necesitan ser medidas a través de variables observadas. Para representarlas se utilizan círculos o elipses. En general se determinan con las letras griegas ξ y η, según su función en el modelo exógena o endógena respectivamente.



Las relaciones entre variables se muestran con flechas. Si son unidireccionales representan la hipótesis de un efecto directo de una variable sobre otra. El origen de la flecha indica la causa; la punta, el efecto (Hair, 2007).



Cuando hay relaciones recíprocas entre las variables la relación se representa con dos flechas o una fecha con puntas en ambos lados (Malhotra, 2010; Hair, 2007).



La correlación entre dos variables se representa con una flecha curva bidireccional (Malhotra, 2010; Hair, 2007).



Los errores se representan como si fueran una variable, indicando la variable con la que están relacionados. Teóricamente, los errores representan todas las causas de una variable que son omitidas. Los errores se consideran variables latentes.



Variable exógena, independiente, regresora o predictora es aquélla cuyas causas son desconocidas. Se determinan fuera del modelo para que influyan en el comportamiento de las variables endógenas. Se identifican porque no reciben impactos, sólo salen flechas (Hair, 2007).

Las variables endógenas, dependientes o de criterio se caracterizan por ser explicadas por el funcionamiento del modelo; son explicadas por las variables exógenas propuestas e identifican por recibir impactos de otras variables (Malhotra, 2010; Hair, 2007).

En los modelos estructurales es posible que una variable tenga doble función, como endógena y exógena. A esta doble función se le conoce como efecto indirecto o mediador.

Instrucciones: Haz clic en cada punto para conocer la relación.

  1. Relación de dependencia
  2. Relación de correlación

15.2 Validación del modelo conceptual

Los pasos para realizar un modelo SEM son los siguientes:



Asegurar la validez del modelo estructural involucre (1) examinar el ajuste, (2) comparar el modelo estructural propuesto con modelos competidores y (d) probar la relación estructural y las hipótesis.

Existen múltiples indicadores de ajuste que pueden ser utilizados para probar la bondad de ajuste del modelo (Malhotra, 2010; Hair, 2007). Éstos deben incluir:

  • El valor de x2 y sus grados de libertad asociados:
  • Dos índices absolutos de ajuste:
    • Un índice de bondad de ajuste (GFI, AGFI)
    • Un índice de maldad de ajuste (RMSR, SRMR, RMSEA)
  • Un índice incremental de ajuste (CFI, TLI, NFI,NNFI, RNI)
  • Un índice parsimónico de ajuste para modelos de diferentes complejidades (PGFI, PNFI)

La identificación de modelo se refiere a si hay suficiente información en la matriz de covarianza para permitirnos estimar un conjunto de ecuaciones estructurales. Podemos estimar un parámetro para cada variación única o covariación entre las variables observadas. Si hay p variables observadas, hasta un máximo de (p(p + 1)) / 2 parámetros pueden estimarse. Tenga en cuenta que este número es la suma de todas la covarianza única (p(p – 1)/2) y todas las varianzas, p. Por lo tanto, (p(p + 1)) / 2 = p(p – 1)/2 + p. 

Si calcula que si el número real de los parámetros, k, es menos de (p(p + 1)) / 2, el modelo está sobreidentificado. En ese caso, tenemos grados de libertad positivos. Por el contrario, si es mayor de k, (p(p + 1)) / 2, el modelo está subidentificado y no puede encontrarse una solución única.  Como pauta general, tener por lo menos tres variables observadas para cada constructo latente ayuda en la identificación del modelo, es decir, se traduce en un modelo sobreidentificado. Esta práctica, por lo tanto, se recomienda.

15.3 “Path Analysis”

El Análisis de Senderos (Path Analysis) es el modelo más utilizado para verificar y apoyar conjuntos de supuestos causales entre variables que se estudian. Su objetivo es explicar las variables dependientes y la relación existente entre ellas. Sólo se consideran variables observables (Malhotra, 2010; Hair, 2007).

Las variables dependientes tienen asociado un error aleatorio llamado disturbio. Los disturbios son semejantes a los residuales en una regresión, pero su connotación está más basada en un modelo causal que en un modelo de predicción. Teóricamente, representan las causas de variables endógenas que son omitidas en el modelo estructural.

Si el modelo construido se ajusta a los datos, el modelo se mantiene con el fin de ser sometido a nuevas pruebas, o bien, para modificarlo o reemplazarlo. En cualquier caso, el análisis de senderos no es un procedimiento para demostrar la existencia de causalidad en forma definitiva.
El análisis de senderos inicia con un diagrama basado en una teoría, mismo que señala las relaciones de influencias sobre las variables. Se busca validar o no la hipótesis expuesta en la estructura causal, así como evaluar el peso de cada relación, a través de los llamados coeficientes de sendero (Hair, 2007).

Los modelos de senderos se pueden clasificar en recursivos y no recursivos. En los recursivos los disturbios no están correlacionados y todos los efectos causales son unidireccionales. Los no recursivos tienen causalidad recíproca y los disturbios pueden estar correlacionados.

Un modelo de Path Analysis o Análisis de Senderos se representa matemáticamente con la ecuación siguiente (Hair, 2007):

Y=BY+ΓX+ ζ

Donde

X = vector de × 1 de variables observadas independientes

Y = vector de × 1 de variables observadas dependientes

B = matriz de × de coeficientes correspondientes a Y

Γ = matriz de × de coeficientes correspondientes a X

ζ = vector de × 1 de disturbios

15.4 Pruebas de mediación y moderación

Pruebas de mediación

Cuando existe una variable interpuesta entre la variable independiente y la dependiente se conoce como causalidad mediadora. Esta variable mediadora es a su vez dependiente de la primera e independiente de la segunda. En la mediación, la variable intermedia ayuda a explicar cómo o ​​por qué una variable independiente influye en un resultado (Malhotra, 2010; Hair, 2007). 

Algunas consideraciones a tener para minimizar la mediación:

Pruebas de moderación

Cuando se introduce una variable independiente adicional como producto de dos variables independientes del modelo se produce el efecto de moderación.

Cuando la moderación influye la medición de manera continua, esta influencia generalmente provoca que en el modelo se cree una nueva variable que es producto de la variable siendo moderada (X) y la variable que está moderando (W). Esta interacción (XW) es entonces introducida en la ecuación de regresión después de que su principal efecto (Y) de la moderación (W) y variable moderada (X) fue estimado (Malhotra, 2010; Hair, 2007).

Si el efecto de XW es significativo, entonces el efecto de X sobre Y es dependiente a los niveles de W. Existe un simple procedimiento que permite dar un peso a los estimados de la regresión de la ecuación completa y graficar un número de regresiones implicadas con la intención de proveer una visualización del efecto moderador.

Cierre


El análisis de ecuaciones estructurales constituye una poderosa técnica de estadística multivariante que es cada vez más utilizada en marketing. Trata de integrar simultáneamente una serie de ecuaciones de regresión múltiple diferentes, pero a la vez interdependientes, ya que las variables que son dependientes en una relación pueden ser independientes en otra relación dentro del mismo modelo.

Además, el análisis de ecuaciones estructurales incorpora variables no observables directamente, denominadas variables latentes o constructos, que sólo pueden ser medidas a través de otras variables directamente observables. Se establecen de este modo relaciones de interdependencia entre variables latentes y manifiestas, dando lugar a este tipo de modelos también denominados análisis de estructuras de covarianzas, análisis de variables latentes, análisis causal o análisis LISREL.

Como consecuencia de no medir perfectamente las variables latentes mediante las variables manifiestas, estos modelos incorporan errores de media, ya sean debido a los encuestados o debido al investigador. Los sujetos expuestos a un cuestionario pueden dar respuestas inexactas a las cuestiones planteadas, bien por no querer decir la verdad, o por desconocimiento u otros motivos. También el investigador contribuye al error de medida al intentar medir conceptos teóricos, tales como actitudes, comportamientos, opiniones, etc., mediante una serie de ítems en un cuestionario.

Uno de los aspectos más importantes a tener en cuenta a la hora de plantear un modelo SEM es que cada relación causal que se establezca ha de obedecer a una justificación basada en la teoría, en la experiencia o en la práctica obtenida por la observación del mundo real. Las relaciones causales constituyen la base de este tipo de modelos.

Checkpoint


Instrucciones: Da clic en las preguntas para conocer su respuesta

Ya que es necesario analizar si la matriz de entrada (correlaciones o varianzas – covarianzas) de las variables observadas permite estimaciones únicas de los parámetros no conocidos. Se dice que un modelo está identificado si dicha matriz es generada por uno y sólo uno, conjunto de variables.

La propuesta más sencilla es modificar el modelo hasta alcanzar un buen ajuste. Se justifica porque en muchos casos la teoría sólo proporciona el punto inicial para el desarrollo de un modelo que posteriormente será apoyado empíricamente. Los pasos a seguir serían:

  1. Formular un modelo sobre la base de la teoría.
  2. Estimar el modelo de medida y el modelo estructural.
  3. Evaluar la bondad de ajuste global del modelo, de medida y del estructural. Si no se ajusta bien a los datos, apoyándonos en los índices de modificación, en la matriz de residuos estandarizados y, por supuesto, en la teoría, se modificará hasta llegar a uno en el que todos los parámetros sean significativos y que presente unos indicadores de bondad aceptables.

Esto no garantiza que alcancemos el mejor modelo posible, simplemente significa que haremos obtenido un modelo que se ajusta bien a los datos muestrales. Para su generalización lo correcto sería validarlo con muestras independientes.

Glosario


Comunalidad: es la varianza de una variable medida que se explica por su construcción.

Constructo: en SEM, un constructo es un concepto inobservable o latente que puede definir expresiones pero que no puede medirse directamente o sin error. También se llama factor, un constructo había medido por indicadores múltiples o variables observado.

Constructo endógeno: es el equivalente multi-ítem, latente de varios factores internos al modelo, de una variable dependiente. Está determinada por las construcciones o variables dentro del modelo y, por lo tanto, depende de otras construcciones.

Constructo exógeno: es el equivalente multi-ítem, latente de varios factores externos al modelo y que no pueden ser explicados por ningún otro constructo o variables del modelo.

Error de medición: es el grado en que las variables observadas no describen los constructos latentes de interés en SEM.

Error estructural: es lo mismo que un término de error en el análisis de regresión. En el caso de las estimaciones completamente estandarizadas, cuadrado múltiple correlación es igual a 1 – el error estructural.

Estadístico de diferencia de ji-cuadrado (χ2): estadística utilizada para comparar dos compitiendo, anidados modelos SEM. Se calcula como la diferencia entre el valor de Chi-cuadrado de los modelos. Sus grados de libertad igual a la diferencia de grados de libertad de los modelos.

Índice absoluto de ajuste: mide la bondad de ajuste o maldad de ajuste para los modelos estructurales y la medición general.

Índices de ajuste incrementales: medidas de evaluación de cuán bien se ajusta a un modelo especificado por el investigador en relación con un modelo alternativo base. Normalmente, el modelo básico es un modelo nulo en el cual todos observados variables están relacionados entre sí.

Modelo estructural: el segundo de los dos modelos estimados en SEM. Representa la teoría que especifica cómo las construcciones están relacionadas entre sí, a menudo con múltiples relaciones de dependencia.

Modelo no reclusivo: un modelo estructural que contiene enlaces de retroalimentación o dependencias duales.

Modelo reclusivo: un modelo estructural que no contiene enlaces de retroalimentación o dependencias duales.

Path analysis (análisis de sender): un caso especial de SEM con sólo indicadores individuales para cada una de las variables en el modelo causal. En otras palabras, análisis de trayectoria está con SEM con un modelo estructural, pero ningún modelo de medición.

Relación estructural: relación de dependencia entre constructos endógenos y otros exógenos o endógenos.

Variables de agrupación: variables categóricas que representan la pertenencia a las distintas subpoblaciones que se desea comparar. Cada código representa una subpoblación.

Variable endógena: variable que recibe efecto de otra variable. La variable dependiente de un modelo de regresión es endógena. Toda variable endógena debe ir acompañada de un error.

Variable error: representa tanto los errores asociados a la medición de una variable como el conjunto de variables que no han sido contempladas en el modelo y que pueden a afectar a la medición de una variable observada. Se considera que son variables de tipo latente por no ser observables directamente. El error asociado a la variable dependiente representa el error de predicción.

Variable exógena: variable que afecta a otra variable y que no recibe efecto de ninguna variable. Las variables independientes de un modelo de regresión son exógenas.

Variable latente: característica que se desearía medir pero que no se puede observar y que está libre de error de medición. Por ejemplo, una dimensión de un cuestionario o un factor en un análisis factorial exploratorio.

Variable observada o indicador: variables que se mide a los sujetos; por ejemplo, las preguntas de un cuestionario.

Referencias


Libro de texto:

  • Malhotra, N. (2008). Investigación de Mercados: Un enfoque aplicado. (5ª ed.) México: Pearson. 
    ISBN: 9789702611851

Libros de apoyo:

  • Hair, J. F. (2007). Análisis Multivariante. (5ª ed.). México: Pearson/ Prentice Hall.
    ISBN: 9788483220351. 
  • Pérez, L.C. (2014). Técnicas de Análisis Multivariante de Datos. España: Pearson /Prentice.