Contexto


Un breve repaso…

Para poder hacer ejercicios de estadística multivariante con éxito es indispensable utilizar ciertas técnicas básicas. Es por eso que el objetivo de este tema es revisar conceptos básicos, como notación matricial, identificación de datos que tengan comportamiento normal, examinar e interpretar el coeficiente de correlación a partir de una serie de datos y, finalmente, analizar e identificar qué tipos de datos son evaluables por regresión lineal y cuáles por regresión múltiple.

Los datos y ecuaciones en la estadística multivariante se presentan en forma habitual como matrices en donde las variables aleatorias o mediciones ocupan una serie de columnas. Estas mediciones se consideran sobre una serie de objetos o individuos.

En la identificación de datos es necesario identificar un dato nominal, ordinal, de intervalo o de razón, a fin de darle el tratamiento adecuado y poderlo interpretar correctamente.

El coeficiente de correlación es indispensable para identificar si un par de variables están relacionadas y de qué forma.

Muy probablemente ya has utilizado lo que verás en este tema, pero empezarás a verlo desde una perspectiva distinta.

Preguntas detonadoras o de reflexión:

¿Alguna vez te has preguntado cómo se relaciona una notación matricial con la estadística multivariante?  

¿O cómo puedes demostrar que dos cosas que consideras relacionadas en verdad lo están?

Explicación

2.1 Operaciones con matrices

Recuerda los siguientes conceptos de acuerdo a Hair (2007), primero que nada, qué es una matriz:

Una matriz es un objeto matemático de la forma:

Tiene como finalidad organizar datos interrelacionados en filas y columnas.

En amn el primer elemento m corresponde al número de fila, mientras que el segundo elemento n corresponde al número de columna.

La notación matricial es muy adecuada en la estadística multivariante, porque generalmente se analizan datos interrelacionados que conviene organizar y una matriz es un instrumento muy útil para esto. Observa el siguiente ejemplo de construcción de una matriz en un problema de programación lineal: 

Se desea determinar una dieta que satisfaga los requerimientos nutricionales de un individuo. Se sabe que dicho individuo tiene requerimientos de 13 unidades de niacina, 15 unidades de tiamina y 45 unidades de vitamina C. Los alimentos que se proponen para la dieta son leche (con 3.2 unidades de niacina, 1.12 de tiamina y 32 de vitamina C), legumbres (con 4.9 unidades de niacina, 1.3 unidades de tiamina y 0 unidades de vitamina C), o naranjas (con 0.8 unidades de niacina, 0.19 de tiamina y 93 unidades de vitamina C).

¿Cómo construirías una matriz que permita identificar los alimentos y los nutrientes que cada uno aporta?

Como ves, con la matriz fácilmente se pueden identificar los requerimientos generales y las aportaciones de cada alimento, de tal forma que es muy útil para organizar datos. Cada columna  contiene los datos correspondientes a leche, legumbres y naranja, y se denomina “vector columna”.

2.2 Distribución normal

Para Malhotra (2008), la distribución normal es una distribución de una variable aleatoria continua que presenta un solo pico, que es simétrica, cuya media µ está exactamente en el centro de la misma, cuya varianza σ representa el promedio de las desviaciones de las mediciones con respecto a su media µ y además que desciende hacia dos extremos que se acercan de forma asintótica al eje horizontal, pero no lo tocan:

Imagen recuperada de http://www.etfos.hr/~akolundzic/slika-normalna-razdioba-ses.gif Sólo para fines educativos

La curva o distribución normal es muy utilizada en conjuntos de datos porque muchos fenómenos se distribuyen de esa forma; por ejemplo, distribución de estaturas de una población, consumo de productos en un grupo determinado de personas, cociente intelectual, puntuaciones de un examen, efectos de una misma dosis de un fármaco, entre otros. A su representación se le llama también “Campana de Gauss”.

Ahora bien, cuando un conjunto de datos obedece a una distribución normal, la media µ y la varianza σ serán los parámetros que la determinarán. Para ello se realiza un procedimiento que se llama normalización, que significa un corrimiento de la media µ hacia el valor cero, de tal forma que pueda hacerse uso de tablas de distribución Z para determinar la probabilidad.

Para normalizar una serie de datos de los cuales se conocen la media µ y la varianza σ, se utiliza la siguiente fórmula:, en donde x es la variable tipificada (elemento a probar), µ es la media y σ es la varianza.

Cuando se realiza la normalización de datos, fácilmente se puede encontrar el área bajo la curva de la gráfica de la distribución, que representa la probabilidad y que está calculada en tablas. Si no se hiciera una normalización, se tendría que obtener la integral de la función normal (el área bajo la curva), que es una función muy difícil de integrar.

2.3 Coeficiente de correlación

Al análisis que se realiza si la nube de puntos se puede ajustar a una línea recta, se le denomina regresión lineal. Dos variables estadísticas están correlacionadas si al cambiar una cambia la otra. El parámetro que se utiliza para determinar qué tan relacionadas están entre ellas se denomina índice o coeficiente de correlación (r). El coeficiente de correlación será siempre un valor que esté entre -1 y 1, es decir: -1 < r < 1. Si |r| es cercano a 1, entonces hay una correlación fuerte y si |r| es cercano a 0, la correlación será débil (Malhotra, 2008).

Cuando los datos tienden a una línea recta se puede hacer un análisis para encontrar la ecuación de dicha recta (denominada recta de regresión). La ecuación puede servir para hacer estimaciones de datos futuros (Malhotra, 2008; Pérez 2014).

Ejemplo:

Se desea saber si existe alguna relación entre la temperatura corporal y la frecuencia cardíaca de un grupo de 12 personas:

Persona 1 2 3 4 5 6 7 8 9 10 11 12
Temperatura (°F) 96.3 97.4 98.9 99 99 96.8 98.4 98.4 98.8 98.8 99.2 99.3
Frecuencia cardíaca (pulsos/min) 70 68 80 75 79 75 74 84 73 84 66 68

Con un gráfico de dispersión de puntos se puede saber si existe una correlación entre ambas variables:

Se puede observar que no hay una relación ni una tendencia clara entre los puntos.

El coeficiente de correlación r es de 0.1740, lo cual determina que la correlación es prácticamente inexistente. 

Ecuación de la recta ajustada: que se obtiene encontrando la recta de la línea de tendencia de los puntos.

Cierre


Como habrás visto, el objetivo de este tema era recordarte algunos conceptos estadísticos que ya debes conocer y que son básicos para este curso.

Conocer el objeto matemático llamado matriz te permitirá plasmar la correlación que usarás en varios temas de estadística multivariante a lo largo del curso.

La distribución normal y sus parámetros media y varianza son elementos importantes para el posterior estudio del análisis de varianza multivariante.

Por otro lado, aprendiste de manera somera que la regresión lineal te permite identificar cómo distintos factores pueden ajustarse bajo ciertas condiciones a un modelo lineal e incluso predecir a partir de su ecuación.

Es importante también identificar los intervalos de confianza y los coeficientes de correlación y determinación.

Ahora sí, con estas bases, puedes proseguir con los siguientes temas de estadística multivariante.

Checkpoint


Antes de concluir el tema, asegúrate de poder contestar las preguntas que se enlistan a continuación.

Instrucciones: Haz clic en cada pregunta para conocer su respuesta.

Porque en la estadística multivarible el uso de matrices para visualizar un problema resulta de mucha utilidad. De hecho, hacer una matriz con los datos permite que sea más sencilla la observación de relaciones que de otra forma son complicadas de ver. Igualmente, sirven para organizar un problema.

No, la distribución normal tiene muchas aplicaciones en la estadística; una de las más comunes es la tipificación de variables, ya que con ella se normaliza la media de la misma en 0 y una varianza constante. Esto permitirá más adelante hacer comparaciones entre variables que están medidas en escalas distintas y que de otra manera no serían comparables.

Encontrar un coeficiente de correlación elevado entre 2 variables es solamente el punto de partida para análisis más complejos. El más relacionado directamente es la regresión lineal, tanto la simple como la múltiple. De hecho, 2 variables que no estén altamente correlacionadas no servirán para hacer este tipo de análisis.

Referencias


Libro de texto:

  • Malhotra, N. (2008). Investigación de Mercados: Un enfoque aplicado. (5ª ed.) México: Pearson. 
    ISBN: 9789702611851

Libros de apoyo:

  • Malhotra, N. (2008). Investigación de Mercados: Un enfoque aplicado. (5ª ed.) México: Pearson. 
    ISBN: 9789702611851
  • Pérez, L.C. (2014). Técnicas de Análisis Multivariante de Datos. España: Pearson /Prentice Hall. ISBN: 9788483229019
  • Mendelhall, W., Beaver, R. y Beaver, B. (2010) Introducción a la probabilidad y estadística. (13ª ed.) México: Cengage Learning.

Glosario


Análisis de regresión: procedimiento estadístico que se usa para analizar las relaciones entre una variable dependiente métrica y una o más variables independientes.

Distribución normal: la base para la inferencia estadística clásica que tiene forma de campana y apariencia simétrica.  Sus medidas de la tendencia central son todas idénticas.

Distribución F: distribución de frecuencias que depende de dos conjuntos de grados de libertad: los grados de libertad del numerador y los grados de libertad del denominador.

Error tipo I: también conocido como error alfa. Ocurre cuando los resultados de una muestra conducen al rechazo de una hipótesis nula que en realidad es verdadera.

Error tipo II: también conocido como error beta. Ocurre cuando los resultados de la muestra conducen al no rechazo de una hipótesis nula que en realidad es falsa.

Estadístico: un estadístico es una descripción resumida de una característica o medida de la muestra. El estadístico de la muestra se utiliza como una estimación del parámetro de la población.

Estadístico F: se calcula como el cociente de las varianzas de dos muestras.

Inferencia estadística: el proceso de generalizar los resultados de la muestra a los resultados de la población.

Grados de libertad: tamaño de la muestra menos uno.

Prueba F: prueba estadística sobre la igualdad de las varianzas de dos poblaciones.

Modelo de regresión múltiple: ecuación que se utiliza para explicar los resultados del análisis de regresión múltiple.

Regresión simple o lineal: técnica estadística que desarrolla una relación matemática entre una variable independiente y otra variable dependiente de intervalo.