Contexto
Te recomendamos ver el siguiente material de apoyo.
¿Es útil la estadística multivariante?
En todas las áreas, sean negocios, salud, producción o distribución de bienes y servicios, siempre se busca optimizar, es decir, ganar más al menor costo y con la menor cantidad de recursos posibles.
En muchas situaciones la toma de decisiones, que facilita dicha optimización, no es adecuada por falta de información o por no poder aprovechar la información existente. Es por eso que se han desarrollado técnicas que permiten hacer un análisis de datos diferente, más creativo que obtener promedios y el análisis estadístico.
El día de hoy los avances tecnológicos permiten hacer análisis y manejo de datos de una forma mucho más sencilla, de manera que obtener resultados útiles puede ser mucho más rápido también.
Las técnicas de estadística multivariante se han popularizado en los últimos años porque permiten a las organizaciones crear información que será útil para la toma de decisiones. En la estadística multivariante se analizan de forma simultánea más de dos variables, que pueden representar medidas en personas u objetos de investigación, así como la manera en que éstas afectan al sistema en su conjunto.
La estadística multivariante también puede ser útil en el diseño de soluciones de problemas que se presentan en las distintas áreas de una empresa, de tal forma que sean reales y duraderas.
Preguntas detonadoras o de reflexión:
Explicación
1.1 Definición de estadística multivariante
De acuerdo a Hair (2007), la estadística multivariante es la parte de la estadística y del análisis de datos que estudia, analiza, representa e interpreta los datos que resultan de observar un número de variables estadísticas sobre una muestra de individuos.
El único supuesto es que las variables observables son homogéneas y correlacionadas sin que haya predominio de alguna sobre las demás.
Como la información estadística tiene características multidimensionales, para su manejo se requieren herramientas como la geometría, el cálculo matricial y las distribuciones multivariantes.
Los datos que se adquieren en la estadística multivariante a menudo sirven para alimentar matrices de distancias o de similitudes que miden el grado de acercamiento o alejamiento entre datos de la muestra.
La estadística multivariante tiene su origen en 1809, cuando Gauss desarrolló el uso de la regresión lineal y más tarde, en 1900, con el modelo oculto de Markov. A pesar de que las técnicas usadas hoy en día tienen su origen en 1930, no fue sino hasta mediados del siglo XX, con el desarrollo de computadoras, paquetes estadísticos y econométricos, que estos métodos lograron popularidad.
1.2 Escalas de medición y tipos de datos
El análisis de los datos significa clasificación, identificación y medición de un conjunto de variables y sus variaciones, tanto aquéllas que se dan entre ellas mismas como las que suceden entre una variable dependiente y una o más variables independientes (Malhotra, 2008).
Malhotra explica que “Medida” es la palabra clave para que el investigador pueda identificar una variación, sobre todo si ésta no es cuantificable. La medida representará el valor por el cual se selecciona el método de análisis multivariado apropiado.
Existen dos tipos básicos de datos:
En el caso de los datos no métricos las propiedades del sujeto son mutuamente excluyentes (por ejemplo, si es hombre, no puede ser mujer). Aquí no hay cantidad sino condición. Existen escalas nominales que sirven para etiquetar sujetos según cierta característica que presentan o no (por ejemplo, para identificar sexo, religión, partido político, alguna forma de comportamiento o acción); también existen escalas ordinales con las que se puede medir cierto parámetro (grado de satisfacción hacia un producto, por ejemplo) de acuerdo a una escala.
Los datos métricos son mejores para casos en que las diferencias son cuantificables y pueden clasificarse como de intervalo y de razón. Las escalas de razón representan el más alto grado de precisión, porque relacionan un punto de la escala con otro de forma exacta.
Ejemplos de datos de intervalo: recorre del kilómetro 50 al 125; pesa 55 kg; está en los 50.
Ejemplos de datos de razón: 30 K (grados Kelvin, donde hay un cero absoluto); $50 de salario (donde hay una referencia a $0 de salario) o 20 m (donde hay una referencia a 0 m).
Los datos se pueden ejemplificar en el siguiente diagrama:
Hair (2007) indica que debemos suponer que todas las variables que se usan en las técnicas multivariantes tendrán algún grado de error y además que los valores de correlación que se obtengan podrán estar afectadas por ese error. El error de medida será también muy importante en la estadística multivariante porque representará el grado en el cual los valores reportados no son valores reales.
Ahora bien, un error de medida puede tener su origen en imprecisión a la hora de medir; una respuesta errónea que proporcione un encuestado o por cualquier otra circunstancia en donde datos erróneos se toman como adecuados.
La obligación del investigador es reducir el error de medida, por lo que deberá cuidar los aspectos de validez y de fiabilidad de la medida. El investigador también puede utilizar escalas sumadas en donde distintas variables se unen a una medida compuesta (por ejemplo, el total de puntos en una prueba psicológica). La idea es usar diferentes variables como indicadores que representen distintas facetas del concepto, para tener una perspectiva más completa.
Por ejemplo, para ordenar las áreas básicas de salud en cierta región, de acuerdo a sus características socioeconómicas, se construye un indicador de necesidad relativa que incluye distintos parámetros, como cantidad de clínicas, distancias de la comunidad a los centros de salud, número de personas que trabajan en esos centros, etcétera.
La mayoría de las técnicas multivariantes se basan en la inferencia estadística. Se parte de una hipótesis nula y se busca determinar el grado de confianza, como el nivel de error permitido (recuerda las definiciones de error tipo I y error tipo II provistas en el glosario del tema anterior).
Tipos de técnicas multivariantes y su objetivo
Acorde a Malhotra (2008), los métodos de estadística multivariante se diferenciarán de acuerdo al área de aplicación, al número de variables y a la manera en que estén distribuidos los datos.
Existen distintos tipos de técnicas multivariantes:
1.3 Objetivos y clasificación de las técnicas multivariables:
Objetivos
De acuerdo a Hair (2007), los objetivos de la estadística multivariable son los siguientes:
Clasificación
Malhotra (2008) proporciona la siguiente clasificación de las técnicas multivariables:
Instrucciones: Haz clic en cada dimensión para ver el detalleSe utiliza para analizar variables interrelacionadas entre un gran número de variables y para explicarlas en términos de valores comunes llamados “factores”. El objetivo de este análisis es encontrar la manera de condensar la información contenida en un número original de variables en un número más pequeño, sin perder información. Ejemplo: para determinar el o los factores que propician el nacimiento de bebés de bajo peso entre madre fumadora, situaciones familiares y enfermedades preexistentes de la madre.
Se utiliza para explorar simultáneamente relaciones entre varias variables independientes categóricas (llamadas tratamientos) y dos o más variables dependientes métricas. Representa una extensión del análisis de varianza univariado (ANOVA).
Ejemplo: en una muestra sirve para determinar si existe alguna diferencia en la solución de un test de acuerdo a la escolaridad de los examinados.
Aunque las emociones son inherentes al ser humano, anteriormente eran medidas únicamente con fines médicos. A partir de hace algunos años se encontró la utilidad estadística de cuantificar las emociones, percepciones y sentimientos para fines mercadológicos.
Ejemplo: para verificar si un perfume en particular genera ciertas emociones al ser percibido.
Se utiliza cuando el problema a investigar presenta una variable métrica dependiente y dos o más variables métricas independientes. El objetivo es predecir cambios en la variable dependiente como respuesta a cambios en las variables independientes. El método de solución se basa en mínimos cuadrados.
Ejemplo: para relacionar la cantidad de trigo producida según la cantidad de precipitación y la cantidad de fertilizante aplicada a cierta cosecha.
Es una técnica cuyo objetivo es determinar qué combinación de un número limitado de características es la favorita de una muestra de encuestados. Se utiliza frecuentemente para comprobar la aceptación de diseños de nuevos productos y el atractivo de la publicidad. Se supone que un producto tiene determinadas características o atributos y distintos niveles para cada uno de éstos; los encuestados evalúan el cuestionario a fin de decidir qué producto es su favorito. Esas respuestas llevan al diseño del mejor producto.
Ejemplo: a partir de las preferencias en las características de un grupo de zapatos deportivos se determinan atributos deseables para diseñar un nuevo par de zapatos, que se ofrecerán posteriormente al mercado.
Esta herramienta es muy útil cuando se cuenta con bases de datos muy extensas con información (textual o numérica) de un grupo de personas. Esta herramienta busca “adentrarse” en las profundidades de esta información tratando de encontrar analogías entre los casos que ayuden a predecir comportamientos o bien, a describir diversos aspectos relacionados.
Ejemplo: un banco que tiene información sobre todos sus clientes puede llegar a predecir si un cliente nuevo que solicita un crédito es candidato viable para otorgarlo o no.
Se utiliza si la única variable dependiente es dicotómica (es decir, cuando sólo puede tomar dos valores: mujer/hombre) o multicotómica (chico/mediano/grande), que es una variable no métrica. Por su parte las variables independientes son métricas. El análisis discriminante es aplicable a situaciones en donde la muestra total puede dividirse en grupos clasificados por los valores de la variable dependiente.
Ejemplo: puede mostrar diferencias y similitudes entre cráneos encontrados en distintas regiones del Tíbet, a partir de mediciones como longitud de cara, ancho y altura de cara.
Es una técnica analítica en donde se seleccionan subgrupos significativos de individuos u objetos y se clasifican en entidades muestra. Se van reduciendo con base en similitudes entre las mismas entidades. A diferencia del análisis discriminante, los grupos no están predefinidos sino que precisamente se busca identificarlos.
Ejemplo: para identificar de forma geográfica los sitios más susceptibles de sufrir dengue o malaria.
En muchas ocasiones una decisión final no se toma basándose en un solo criterio; más bien, existen múltiples causas que llevan a una consecuencia. Poder relacionar todos esos aspectos que llevan a algo implica la creación de un modelo y en ese sentido, las ecuaciones estructurales ayudarán para saber si éste es válido o no. Ejemplo: para identificar la forma en que la satisfacción del cliente se va generando desde la experiencia en la tienda hasta después del uso de un producto en particular; qué aspectos están involucrados, qué va primero y qué después y cómo se interrelacionan entre sí todos estos aspectos.
1.4 Algoritmo para la construcción de un modelo multivariante
En general, Hair (2007) indica que para construir un modelo de estadística multivariante debes seguir los siguientes pasos:
Para cada uno de los modelos multivariantes se verá el algoritmo en particular a fin de poder resolverlo con éxito.
Cierre
Como has visto, la estadística multivariante y sus técnicas aplican en distintos casos, en los cuales también hay diferentes escalas de medida. Una vez que las conozcas tendrás la base para decidir cuál técnica multivariante te resulta más conveniente.
También estudiaste la importancia de conceptos como el error de medida, la validez y la fiabilidad de datos, así como los tipos de errores que puedes cometer en la estadística multivariante en las técnicas que se basan en la inferencia estadística.
La validez y la fiabilidad de datos son valores que se obtienen al realizar procedimientos. Garantizan consistencia en la muestra y un buen número con el comportamiento que se busca. Por ejemplo, la fiabilidad se puede medir al obtener un porcentaje de confianza en la distribución de acuerdo a los datos que identifica la muestra con validez.
En otras palabras, si se desea conocer la altura de un edificio y se mide su sombra para obtenerlo, puede haber un error de medida, si el resultado obtenido no corresponde al que se obtendría si se mide el edificio directamente.
Como has visto, la estadística multivariante representa una herramienta muy poderosa para predecir resultados y con ello tomar mejores decisiones. Lo que debes mantener en mente es que su éxito depende también de un diseño adecuado, la toma de datos confiables y la validez del método.
Antes de iniciar el siguiente tema, detente un momento y reflexiona sobre lo que entiendes por estadística y cómo esta materia cambiará tu percepción de la misma; de qué manera integrar múltiples variables a un análisis podría serte útil.
Checkpoint
Antes de dar por concluido el tema, asegúrate de contestar lo siguiente:
Instrucciones: Haz clic en cada pregunta para conocer su respuesta.
La estadística descriptiva utiliza una sola variable a la vez o a lo sumo 2 variables al mismo tiempo. En cambio, la estadística multivariada utiliza 3 o más variables de manera simultánea, generando respuestas robustas que requieren mayor análisis para su entendimiento y aplicación.
Debido a las diversas herramientas multivariadas, cada una de ellas indica como requisito que los datos a emplear sean métricos o no métricos y, en algunos casos, distinguir si son nominales, ordinales, de intervalo o de razón.
El uso de niveles más elevados en la escala –siempre que sea posible- permitirá análisis más diversos, ya que es posible transformar los datos hacia una escala inferior pero no así al contrario.
No existe una técnica en particular que sea de mayor utilidad; en términos generales, todas las herramientas son útiles, pero es importante distinguir que no siempre sirven para todo. Esto es, cada herramienta multivariada se utiliza para uno o varios objetivos en particular. Incluso, varias herramientas pueden servir para lo mismo, ayudando a obtener análisis confirmatorios mucho más estables y confiables. Lo importante aquí es conocerlas todas y saber cuáles son los principales usos que es posible darles.
Referencias
Libro de texto:
Libros de apoyo:
Glosario
Algoritmo. Un algoritmo es un conjunto finito de instrucciones que se utilizan para seguir de forma ordenada y eficiente un procedimiento. El algoritmo garantiza que siempre se obtendrá el mismo resultado, si se inicia con los mismos datos de entrada y se aplica el mismo procedimiento. En estadística multivariante es muy importante, porque cada técnica tiene un procedimiento determinado que facilita la solución y análisis de problemas.
Análisis estadístico. Es el uso de herramientas estadísticas para interpretar datos con la intención de tomar mejores decisiones o bien explicar de manera sustentada un suceso.
Error tipo I (α). También conocido como error alfa. Ocurre cuando los resultados de la muestra conducen al rechazo de una hipótesis nula que en realidad es verdadera.
Error tipo II (β). También conocido como error beta. Ocurre cuando los resultados de la muestra conducen al no rechazo de una hipótesis nula que en realidad es falsa.
Fiabilidad o Confiabilidad. Es el grado en que la escala produce resultados consistentes, si se realizan mediciones repetidas de la característica.
Promedio. Es el resultado de sumar una determinada cantidad de datos y dividirla entre la cantidad de sumandos.
Unidades de Prueba. Individuos, organizaciones u otras entidades cuya respuesta a las variables independientes o tratamientos se está estudiando.
Validez. Grado en que las diferencias en las puntuaciones obtenidas con la escala reflejan diferencias verdaderas entre los objetos en la característica medida, en lugar de un error aleatorio o sistemático.
Variable dependiente. Variable que mide el efecto de las variables independientes sobre las unidades de prueba.
Variable independiente. Variables que son manipuladas por el investigador, cuyos efectos se miden y se comparan.