Contexto


Te recomendamos ver el siguiente material de apoyo.

¿Es útil la estadística multivariante?

En todas las áreas, sean negocios, salud, producción o distribución de bienes y servicios, siempre se busca optimizar, es decir, ganar más al menor costo y con la menor cantidad de recursos posibles. 

En muchas situaciones la toma de decisiones, que facilita dicha optimización, no es adecuada por falta de información o por no poder aprovechar la información existente. Es por eso que se han desarrollado técnicas que permiten hacer un análisis de datos diferente, más creativo que obtener promedios y el análisis estadístico.

El día de hoy los avances tecnológicos permiten hacer análisis y manejo de datos de una forma mucho más sencilla, de manera que obtener resultados útiles puede ser mucho más rápido también.

Las técnicas de estadística multivariante se han popularizado en los últimos años porque permiten a las organizaciones crear información que será útil para la toma de decisiones. En la estadística multivariante se analizan de forma simultánea más de dos variables, que pueden representar medidas en personas u objetos de investigación, así como la manera en que éstas afectan al sistema en su conjunto.

La estadística multivariante también puede ser útil en el diseño de soluciones de problemas que se presentan en las distintas áreas de una empresa, de tal forma que sean reales y duraderas.

Preguntas detonadoras o de reflexión:

  1. De manera personal, ¿en qué situaciones de tu vida crees que te pueda ser de utilidad la estadística multivariante?
  2. Ahora, para una empresa, utilizar herramientas de estadística multivariante, ¿en qué tipo de casos crees que les pueda servir?

Explicación

1.1 Definición de estadística multivariante

De acuerdo a Hair (2007), la estadística multivariante es la parte de la estadística y del análisis de datos que estudia, analiza, representa e interpreta los datos que resultan de observar un número de variables estadísticas sobre una muestra de individuos. 

El único supuesto es que las variables observables son homogéneas y correlacionadas sin que haya predominio de alguna sobre las demás.  

Como la información estadística tiene características multidimensionales, para su manejo se requieren herramientas como la geometría, el cálculo matricial y las distribuciones multivariantes.

Los datos que se adquieren en la estadística multivariante a menudo sirven para alimentar matrices de distancias o de similitudes que miden el grado de acercamiento o alejamiento entre datos de la muestra.

La estadística multivariante tiene su origen en 1809, cuando Gauss desarrolló el uso de la regresión lineal y más tarde, en 1900, con el modelo oculto de Markov. A pesar de que las técnicas usadas hoy en día tienen su origen en 1930, no fue sino hasta mediados del siglo XX, con el desarrollo de computadoras, paquetes estadísticos y econométricos, que estos métodos lograron popularidad.

1.2 Escalas de medición y tipos de datos

El análisis de los datos significa clasificación, identificación y medición de un conjunto de variables y sus variaciones, tanto aquéllas que se dan entre ellas mismas como las que suceden entre una variable dependiente y una o más variables independientes (Malhotra, 2008).

Malhotra explica que “Medida” es la palabra clave para que el investigador pueda identificar una variación, sobre todo si ésta no es cuantificable. La medida representará el valor por el cual se selecciona el método de análisis multivariado apropiado.

Existen dos tipos básicos de datos:  


En el caso de los datos no métricos las propiedades del sujeto son mutuamente excluyentes (por ejemplo, si es hombre, no puede ser mujer). Aquí no hay cantidad sino condición. Existen escalas nominales que sirven para etiquetar sujetos según cierta característica que presentan o no (por ejemplo, para identificar sexo, religión, partido político, alguna forma de comportamiento o acción); también existen escalas ordinales con las que se puede medir cierto parámetro (grado de satisfacción hacia un producto, por ejemplo) de acuerdo a una escala.

Los datos métricos son mejores para casos en que las diferencias son cuantificables y pueden clasificarse como de intervalo de razón. Las escalas de razón representan el más alto grado de precisión, porque relacionan un punto de la escala con otro de forma exacta.

Ejemplos de datos de intervalo: recorre del kilómetro 50 al 125; pesa 55 kg; está en los 50. 

Ejemplos de datos de razón: 30 K (grados Kelvin, donde hay un cero absoluto); $50 de salario (donde hay una referencia a $0 de salario) o 20 m (donde hay una referencia a 0 m).

Los datos se pueden ejemplificar en el siguiente diagrama:



Hair (2007) indica que debemos suponer que todas las variables que se usan en las técnicas multivariantes tendrán algún grado de error y además que los valores de correlación que se obtengan podrán estar afectadas por ese error. El error de medida será también muy importante en la estadística multivariante porque representará el grado en el cual los valores reportados no son valores reales.  

Ahora bien, un error de medida puede tener su origen en imprecisión a la hora de medir; una respuesta errónea que proporcione un encuestado o por cualquier otra circunstancia en donde datos erróneos se toman como adecuados.

La obligación del investigador es reducir el error de medida, por lo que deberá cuidar los aspectos de validez y de fiabilidad de la medida. El investigador también puede utilizar escalas sumadas en donde distintas variables se unen a una medida compuesta (por ejemplo, el total de puntos en una prueba psicológica). La idea es usar diferentes variables como indicadores que representen distintas facetas del concepto, para tener una perspectiva más completa.

Por ejemplo, para ordenar las áreas básicas de salud en cierta región, de acuerdo a sus características socioeconómicas, se construye un indicador de necesidad relativa que incluye distintos parámetros, como cantidad de clínicas, distancias de la comunidad a los centros de salud, número de personas que trabajan en esos centros, etcétera.

La mayoría de las técnicas multivariantes se basan en la inferencia estadística. Se parte de una hipótesis nula y se busca determinar el grado de confianza, como el nivel de error permitido (recuerda las definiciones de error tipo I y error tipo II provistas en el glosario del tema anterior).

Tipos de técnicas multivariantes y su objetivo

Acorde a Malhotra (2008),  los métodos de estadística multivariante se diferenciarán de acuerdo al área de aplicación, al número de variables y a la manera en que estén distribuidos los datos.

Existen distintos tipos de técnicas multivariantes:

  • En los métodos de dependencia el objetivo es determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué manera. Como ejemplo de una técnica de análisis que conlleve una dependencia técnica está el análisis de regresión múltiple, el análisis conjunto, el análisis discriminante o el análisis de varianza (MANOVA).
  • En los métodos de interdependencia el objetivo es identificar qué variables están relacionadas, cómo se relacionan y por qué se relacionan. Como ejemplo de una técnica de análisis en el cual todas las variables del conjunto se toman simultáneamente está el análisis factorial.

  • En los métodos estructurales el objetivo es analizar no sólo cómo afectan las variables independientes a las variables dependientes, sino también cómo se relacionan las variables de los dos grupos entre sí.

1.3 Objetivos y clasificación de las técnicas multivariables:

Objetivos

De acuerdo a Hair (2007), los objetivos de la estadística multivariable son los siguientes:

  1. Proporcionar métodos cuya finalidad es el estudio del conjunto de datos multivariantes que el análisis estadístico unidimensional y bidimensional no pueden conseguir.
  2. Ayudar al analista o investigador a tomar decisiones óptimas en el contexto en el que se encuentre, teniendo en cuenta la información disponible por el conjunto de datos analizado.

Clasificación

Malhotra (2008) proporciona la siguiente clasificación de las técnicas multivariables:

Instrucciones: Haz clic en cada dimensión para ver el detalle

Se utiliza para analizar variables interrelacionadas entre un gran número de variables y para explicarlas en términos de valores comunes llamados “factores”. El objetivo de este análisis es encontrar la manera de condensar la información contenida en un número original de variables en un número más pequeño, sin perder información. Ejemplo: para determinar el o los factores que propician el nacimiento de bebés de bajo peso entre madre fumadora, situaciones familiares y enfermedades preexistentes de la madre.

Se utiliza para explorar simultáneamente relaciones entre varias variables independientes categóricas (llamadas tratamientos) y dos o más variables dependientes métricas. Representa una extensión del análisis de varianza univariado (ANOVA).
Ejemplo: en una muestra sirve para determinar si existe alguna diferencia en la solución de un test de acuerdo a la escolaridad de los examinados.

Aunque las emociones son inherentes al ser humano, anteriormente eran medidas únicamente con fines médicos. A partir de hace algunos años se encontró la utilidad estadística de cuantificar las emociones, percepciones y sentimientos para fines mercadológicos.
Ejemplo: para verificar si un perfume en particular genera ciertas emociones al ser percibido.

Se utiliza cuando el problema a investigar presenta una variable métrica dependiente y dos o más variables métricas independientes. El objetivo es predecir cambios en la variable dependiente como respuesta a cambios en las variables independientes. El método de solución se basa en mínimos cuadrados.
Ejemplo: para relacionar la cantidad de trigo producida según la cantidad de precipitación y la cantidad de fertilizante aplicada a cierta cosecha.

Es una técnica cuyo objetivo es determinar qué combinación de un número limitado de características es la favorita de una muestra de encuestados. Se utiliza frecuentemente para comprobar la aceptación de diseños de nuevos productos y el atractivo de la publicidad. Se supone que un producto tiene determinadas características o atributos y distintos niveles para cada uno de éstos; los encuestados evalúan el cuestionario a fin de decidir qué producto es su favorito. Esas respuestas llevan al diseño del mejor producto.
Ejemplo: a partir de las preferencias en las características de un grupo de zapatos deportivos se determinan atributos deseables para diseñar un nuevo par de zapatos, que se ofrecerán posteriormente al mercado.

Esta herramienta es muy útil cuando se cuenta con bases de datos muy extensas con información (textual o numérica) de un grupo de personas. Esta herramienta busca “adentrarse” en las profundidades de esta información tratando de encontrar analogías entre los  casos que ayuden a predecir comportamientos o bien, a describir diversos aspectos relacionados.
Ejemplo: un banco que tiene información sobre todos sus clientes puede llegar a predecir si un cliente nuevo que solicita un crédito es candidato viable para otorgarlo o no.

Se utiliza si la única variable dependiente es dicotómica (es decir, cuando sólo puede tomar dos valores: mujer/hombre) o multicotómica (chico/mediano/grande), que es una variable no métrica. Por su parte las variables independientes son métricas. El análisis discriminante es aplicable a situaciones en donde la muestra total puede dividirse en grupos clasificados por los valores de la variable dependiente.
Ejemplo: puede mostrar diferencias y similitudes entre cráneos encontrados en distintas regiones del Tíbet, a partir de mediciones como longitud de cara, ancho y altura de cara.

Es una técnica analítica en donde se seleccionan subgrupos significativos de individuos u objetos y se clasifican en entidades muestra. Se van reduciendo con base en similitudes entre las mismas entidades. A diferencia del análisis discriminante, los grupos no están predefinidos sino que precisamente se busca identificarlos.  
Ejemplo: para identificar de forma geográfica los sitios más susceptibles de sufrir dengue o malaria.

En muchas ocasiones una decisión final no se toma basándose en un solo criterio; más bien, existen múltiples causas que llevan a una consecuencia. Poder relacionar todos esos aspectos que llevan a algo implica la creación de un modelo y en ese sentido, las ecuaciones estructurales ayudarán para saber si éste es válido o no. Ejemplo: para identificar la forma en que la satisfacción del cliente se va generando desde la experiencia en la tienda hasta después del uso de un producto en particular; qué aspectos están involucrados, qué va primero y qué después y cómo se interrelacionan entre sí todos estos aspectos.

1.4 Algoritmo para la construcción de un modelo multivariante

En general, Hair (2007) indica que para construir un modelo de estadística multivariante debes seguir los siguientes pasos:

  1. Definir el problema a investigar así como los objetivos y la técnica multivariante a utilizar. En esta parte se determina si se busca agrupar, seleccionar y determinar coincidencias o elaborar un tipo de función, ya que eso establece el tipo de análisis, así como sus objetivos.

  2. Desarrollar el plan de análisis que depende del tipo de técnica a aplicar a los datos.

  3. Evaluar los supuestos, ya que todas las técnicas multivariantes se aplican de acuerdo a supuestos específicos.

  4. Hacer una estimación del modelo multivariantey evaluar ajustes, la cual provee los valores obtenidos para las variables o el rango de valores permitidos para éstas. En caso de que los resultados no concuerden, se puede replantear el problema.

  5. Interpretar las variantes a través de parámetros particulares de cada método multivariante.

  6. Validar el modelo multivariante. Generalmente se hace mediante estadísticos, como la chi cuadrada, que garantizan poblaciones de comportamiento normal o algún otro particular del método.

Para cada uno de los modelos multivariantes se verá el algoritmo en particular a fin de poder resolverlo con éxito.

Cierre


Como has visto, la estadística multivariante y sus técnicas aplican en distintos casos, en los cuales también hay diferentes escalas de medida. Una vez que las conozcas tendrás la base para decidir cuál técnica multivariante te resulta más conveniente.

También estudiaste la importancia de conceptos como el error de medida, la validez y la fiabilidad de datos, así como los tipos de errores que puedes cometer en la estadística multivariante en las técnicas que se basan en la inferencia estadística.

La validez y la fiabilidad de datos son valores que se obtienen al realizar procedimientos. Garantizan consistencia en la muestra y un buen número con el comportamiento que se busca. Por ejemplo, la fiabilidad  se puede medir al obtener un porcentaje de confianza en la distribución de acuerdo a los datos que identifica la muestra con validez.

En otras palabras, si se desea conocer la altura de un edificio y se mide su sombra para obtenerlo, puede haber un error de medida, si el resultado obtenido no corresponde al que se obtendría si se mide el edificio directamente.

Como has visto, la estadística multivariante representa una herramienta muy poderosa para predecir resultados y con ello tomar mejores decisiones. Lo que debes mantener en mente es que su éxito depende también de un diseño adecuado, la toma de datos confiables y la validez del método. 

Antes de iniciar el siguiente tema, detente un momento y reflexiona sobre lo que entiendes por estadística y cómo esta materia cambiará tu percepción de la misma; de qué manera integrar múltiples variables a un análisis podría serte útil.

Checkpoint


Antes de dar por concluido el tema, asegúrate de contestar lo siguiente:

Instrucciones: Haz clic en cada pregunta para conocer su respuesta.

La estadística descriptiva utiliza una sola variable a la vez o a lo sumo 2 variables al mismo tiempo. En cambio, la estadística multivariada utiliza 3 o más variables de manera simultánea, generando respuestas robustas que requieren mayor análisis para su entendimiento y aplicación.

Debido a las diversas herramientas multivariadas, cada una de ellas indica como requisito que los datos a emplear sean métricos o no métricos y, en algunos casos, distinguir si son nominales, ordinales, de intervalo o de razón.
El uso de niveles más elevados en la escala –siempre que sea posible- permitirá análisis más diversos, ya que es posible transformar los datos hacia una escala inferior pero no así al contrario.

No existe una técnica en particular que sea de mayor utilidad; en términos generales, todas las herramientas son útiles, pero es importante distinguir que no siempre sirven para todo. Esto es, cada herramienta multivariada se utiliza para uno o varios objetivos en particular. Incluso, varias herramientas pueden servir para lo mismo, ayudando a obtener análisis confirmatorios mucho más estables y confiables. Lo importante aquí es conocerlas todas y saber cuáles son los principales usos que es posible darles.

Referencias


Libro de texto:

  • Malhotra, N. (2008). Investigación de Mercados: Un enfoque aplicado. (5ª ed.) México: Pearson. 
    ISBN: 9789702611851

Libros de apoyo:

  • Hair, J. F. (2007). Análisis Multivariante. (5ª ed.). México: Pearson/ Prentice Hall.
    ISBN: 9788483220351.

  • Mendelhall, W., Beaver, R. y Beaver, B. (2010) Introducción a la probabilidad y estadística. (13ª ed.) México: Cengage Learning.

  • Pérez, L.C. (2014). Técnicas de Análisis Multivariante de Datos. España: Pearson /Prentice Hall. ISBN: 9788483229019

Glosario


Algoritmo. Un algoritmo es un conjunto finito de instrucciones que se utilizan para seguir de forma ordenada y eficiente un procedimiento. El algoritmo garantiza que siempre se obtendrá el mismo resultado, si se inicia con los mismos datos de entrada y se aplica el mismo procedimiento. En estadística multivariante es muy importante, porque cada técnica tiene un procedimiento determinado que facilita la solución y análisis de problemas.

Análisis estadístico. Es el uso de herramientas estadísticas para interpretar datos con la intención de tomar mejores decisiones o bien explicar de manera sustentada un suceso.

Error tipo I (α). También conocido como error alfa. Ocurre cuando los resultados de la muestra conducen al rechazo de una hipótesis nula que en realidad es verdadera.

Error tipo II (β). También conocido como error beta. Ocurre cuando los resultados de la muestra conducen al no rechazo de una hipótesis nula que en realidad es falsa.

Fiabilidad o Confiabilidad. Es el grado en que la escala produce resultados consistentes, si se realizan mediciones repetidas de la característica.

Promedio. Es el resultado de sumar una determinada cantidad de datos y dividirla entre la cantidad de sumandos.

Unidades de Prueba. Individuos, organizaciones u otras entidades cuya respuesta a las variables independientes o tratamientos se está estudiando.

Validez. Grado en que las diferencias en las puntuaciones obtenidas con la escala reflejan diferencias verdaderas entre los objetos en la característica medida, en lugar de un error aleatorio o sistemático.

Variable dependiente. Variable que mide el efecto de las variables independientes sobre las unidades de prueba.

Variable independiente. Variables que son manipuladas por el investigador, cuyos efectos se miden y se comparan.