Contexto
En el tema de minería de datos te adentraste en una mina de datos que por lo general tienen la característica básica de ser numéricos o cuantitativos. Pero existen muchos otros datos que son de naturaleza textual. ¿Pueden estos datos ser analizados? ¡Por supuesto!
Para ello, existe la minería de datos textuales o text mining. Ésta es el área de investigación todavía más reciente que se basa en el procesamiento de textos y está encargada del descubrimiento de conocimientos que no existían explícitamente, pero que surgen de relacionar el contenido de varios documentos textuales.
Su principal objetivo es buscar conocimientos útiles en enormes colecciones de documentos —estructurados y no estructurados— como pueden ser correos electrónicos, actas, libros, artículos, discursos, encuestas, redes sociales, etc.
El análisis de datos textuales tiene una problemática muy distinta a los datos numéricos. Aquí pueden surgir del propio estudio de textos (al comparar estilos, atribución de autor, búsqueda documental, etc.) o bien, ser de naturaleza no textual, pero que al ser tratados nos lleven a considerar ciertos textos como datos portadores de información (como puede ser el caso de las entrevistas en profundidad y tests, con discursos, programas políticos y artículos periodísticos, etc.).
Otra forma de hacer minería de textos se encuentra incluso en cuestionarios estructurados, ya que algunos de ellos incluyen textos en opiniones de respuestas abiertas de encuestas. El tratamiento de estos tipos de texto enriquece tanto la información obtenida por vía cuantitativa como el conocimiento per se de los entrevistados.
Preguntas detonadoras o de reflexión:
Explicación
13.1 Glosario de términos frecuentes
La minería de datos textuales nace de la escuela francesa que busca métodos de análisis multidimensionales exploratorios. Entre las primeras aplicaciones se desarrolló el análisis de correspondencias que veremos más adelante en este mismo tema. Posteriormente, otros autores consideraron la importancia de tratar preguntas abiertas con métodos más automáticos que la post-codificación manual y que en la mayoría de los casos aún se sigue realizando (Luque, 2012).
La minería de datos textuales consiste en aplicar métodos; partiendo siempre del análisis descriptivo, el análisis de correspondencias y la clasificación a tablas específicas, creadas a partir de los datos textuales.
Estos métodos se ven complementados con métodos propios del dominio textual como pueden ser los glosarios de palabras, las concordancias y la selección del vocabulario más específico de cada texto, permitiendo así una herramienta comparativa de los mismos. Un método de análisis ya probado en estudios textuales es la aptitud que éstos tienen para elaborar tipologías mediante el recuento de las formas gráficas (Pérez, 2004).
Estos métodos presentan la ventaja de estudiar perfiles lexicales en su conjunto, y por lo tanto, tomar en cuenta redes de autocorrelaciones bastante finas. De esta manera consiguen llegar bastante lejos en el estudio de los textos, a la vez que guardan una total independencia de la lengua tratada (Hair, 2007).
La lexicometría o estadística lexical es aquella en la que el área de interés está representada por la lista de todas las formas lexicales acompañadas, cada una, de un efectivo numérico: su frecuencia de empleo (Tusell, 2012; Césari, 2007). La importancia de la lexicometría radica en lo siguiente:
Podríamos decir que cualquier tipo de dato textual es susceptible de ser analizado:
La única condición es que sea texto.
Algunas opciones sencillas de análisis para cada tipo de fichero son:
Al final de este tema (en el glosario) se encuentran detallados los principales términos de la minería de datos textuales.
13.2 Análisis descriptivo
Este punto de partida del análisis suele conocerse como índice lexical y tiene naturaleza jerárquica cuando las formas estén ordenadas por frecuencias decrecientes o "alfabético".
El índice lexical jerárquico —cuando se explora un discurso— permite establecer una primera imagen sintética del contenido del cuerpo o texto estudiado. Todo discurso emplea un número limitado de formas con frecuencia elevada y, por otro lado, una cantidad importante de formas con escasa frecuencia, es posible construir un inventario de palabras que representan una gran parte del repertorio lexical de un cuerpo o texto (Tusell, 2012; Césari, 2007).
Sin embargo, la lingüística moderna ha acumulado una enorme cantidad de material procedente de la observación y descripción de hechos, relaciones, leyes y comparaciones que han terminado desbordanado la capacidad de tratamiento de los problemas por métodos tradicionales y han elevado la metodología basada en modelos estadísticos, que, supuestamente, proporcionan una mayor amplitud de interpretaciones.
Obviamente, no es posible efectuar inferencias sólidas a este nivel, pues lo que se percibe es sólo el sistema de "preferencias" lexicales del locutor. Lo que se observa en los rangos superiores del índice jerárquico es el conjunto de puntos de densidad del discurso, sobre todo en cuanto a su matriz referencial global (en términos generales habrá siempre un predominio de sustantivos que vehiculan la información intencionalmente) (Césari, 2007).
Por otro lado, los problemas de polisemia hacen que sea necesario relativizar toda interpretación hasta no verificar en contexto el uso de los términos.
La minería de datos textuales conlleva la creación de diccionarios específicos para cada análisis, ya que las palabras tienden a mantener en todo contexto un cierto "núcleo" semántico estable. Por ejemplo, cuando un político hace mención en su discurso de la palabra "patria", se está refiriendo casi con seguridad al colectivo nacional de pertenencia que genera identidad entre sus connacionales. Por supuesto, la "connotación" podrá variar de locutor a locutor o de político en político, e incluso de enunciado a enunciado; aun así, se tratará en todos los casos de la designación de una "zona" referencial específica.
El trabajo descriptivo con frecuencias léxicas se vuelve mucho más interesante cuando se establecen contrastes entre varios cuerpos o textos o entre las diversas partes de un mismo cuerpo. En el índice lexical jerárquico, la frecuencia sólo sirve para dar lugar a un gradiente: el empleo de una palabra es "significativo" cuando su posición jerárquica en la lista indica la existencia de una "preferencia" con respecto a las otras opciones lexicales de las que el locutor disponía (por ejemplo, en un discurso presidencial, Menem "prefirió", en general, el término "país" al término "patria" para designar al colectivo nacional) (Tusell, 2012; Césari, 2007).
También ciertos aspectos de la enunciación pueden ser indagados a través de un acceso lexical. Por ejemplo, la observación de las frecuencias de empleo de los pronombres personales y posesivos de la primera persona. El estudio de las formas verbales conjugadas en primera persona puede aportar otros elementos relevantes en lo que concierne a la enunciación.
13.3 Análisis de correspondencias
La aplicación del Análisis Factorial (AF) en el campo de la minería de datos textuales se centra principalmente en el algoritmo estadístico del Análisis Factorial de Correspondencias (AFC).
El AFC es un método descriptivo (no explicativo) —dentro de los métodos multivariantes de interdependencia— que permite visualizar los datos, que pueden ser de naturaleza cualitativa o cuantitativa, mediante la representación de una nube de puntos en un espacio de dimensiones reducidas, en función de las distancias geométricas entre los puntos (Luque, 2012; Césari, 2007).
El proceso de análisis se efectúa siguiendo cuatro etapas (Tusell, 2012; Césari, 2007):
Instrucciones: Haz clic en cada componente para ver el detalle
Se ejecuta el análisis factorial de correspondencias (AFC), primero entre las líneas (atributos) y después, entre las columnas (marcas), conjugándose ambos análisis, ya que los datos son idénticos tanto si son leídos según las filas, como si lo son según las columnas. Hay por lo tanto, una dualidad entre el análisis de las líneas y las columnas de la matriz de datos de entrada, de manera que el plano de mejor aproximación es el mismo en los dos casos. Y el centro de gravedad o, sobre todo, la inercia de los factores sacados de las líneas coincide con el centro de gravedad de los factores sacados de las columnas.
Como consecuencia de todo el proceso se obtiene un mapa de posicionamiento entre todos los atributos considerados en los dos conjuntos tratados (variables fila y variables columna). El resultado es, pues, un solo conjunto homogéneo que incluyen todos los elementos de la matriz.
Así pues, de esta manera se puede obtener una representación sintética de los atributos de tipificación considerados y las marcas analizadas, en sus principales ejes de diferenciación. La proyección en el plano de los puntos individuales que constituyen los atributos del producto permitirá interpretar la significación de los ejes factoriales obtenida.
El AFC es una técnica de interdependencia que facilita tanto la reducción dimensional de una clasificación de objetos (marcas, empresas, personas, palabras, frases, textos etc.) sobre un conjunto de atributos y el mapa perceptual de objetos relativos a estos atributos (Tusell, 2012; Césari, 2007).
Debido a que los investigadores se enfrentan constantemente a la necesidad de “cuantificar datos cualitativos” que encuentran en variables nominales, el AFC ajusta tanto los datos no métricos como los que presentan relaciones no lineales, siendo así de gran utilidad.
En su forma más básica, el AFC emplea una tabla de contingencia que es la tabulación cruzada de dos variables categóricas. A continuación transforma los datos no métricos en un nivel métrico y realiza una reducción dimensional y un mapa perceptual.
El AFC proporciona una representación multivariante de la interdependencia de datos no métricos que no es posible realizar con otros métodos multivariantes (Luque, 2012; Pérez, 2004).
Cierre
La minería de datos textuales es una tecnología que permite recuperar, organizar y analizar información textual. Aunque se puede considerar una tecnología emergente, es sumamente útil para cualquier tipo de organización (pública o privada) que desee analizar textos.
Esta herramienta puede ser utilizada para ahorrar dinero y abrir oportunidades de negocio a los emprendedores, ya que, sin importar el giro, las conclusiones derivadas de su uso son una base firme para la toma de decisiones.
En la sociedad de información en que vivimos, el desarrollo y generación de información supera nuestra capacidad de almacenarla. Cada vez resulta mucho más sencillo recabar datos y guardarlos. El nuevo reto es contar con las herramientas (y el conocimiento) para sacar el mayor provecho al potencial de conocimiento escondido detrás de ella.
Gracias a la minería textual, se puede ver mucho más allá de lo que a simple vista, nos ofrece un texto. Con esta y otras técnicas es posible explorar, analizar, comprender y aplicar el conocimiento encerrado en todo tipo de textos.
Para cualquier comercio o empresa productora, es importante encontrar patrones ocultos en el consumo de sus clientes, con la intención de explorar horizontes lejanos. Conocer, por ejemplo, que los dueños de autos deportivos y autos familiares, tienden a hablar mucho más de los deportivos (y a mostrar fotos y otros elementos visuales) que del auto familiar resulta interesante y útil para el desarrollo de estrategias comerciales.
La aplicación de la minería de datos textuales no siempre es sencilla, por lo que en ocasiones las organizaciones recurren a expertos en el manejo de estos datos. Sin embargo, conocer los tipos de análisis que son factibles, cómo se llevan a cabo y las diversas opciones existentes permite que profundicemos más en lo que se espera de este tipo de proyectos.
Entonces, nuestros textos dejan evidencia de nosotros mismos y reflejan nuestra personalidad y estilo. Un experto puede llegar a describir nuestra personalidad basándose en lo que publicamos en Facebook, por ejemplo. Te has preguntado: ¿Qué ocurre con los políticos, quienes tienen discursos pre-fabricados por terceros? ¿La minería de textos servirá en estos casos?
Checkpoint
Antes de concluir el tema, asegúrate de poder contestar las preguntas que se enlistan a continuación.
Instrucciones: Haz clic en cada pregunta para conocer su respuesta.Un texto en sí mismo tiene naturaleza cualitativa. Sin embargo, al hacer un análisis de su contenido o discurso, es posible encontrar elementos que se repiten a lo largo del mismo, o bien, elementos que dejan entrever la personalidad o características descriptivas de quien lo hizo.
En ambos casos hablamos del mismo tipo de análisis, el de correspondencias, que tiene la virtud de permitirnos utilizarlo cuando tratamos con datos métricos, como cuando tratamos con datos no métricos. La base se fundamenta en la tipificación de las características consideradas para el análisis.
Glosario
Análisis (factorial) de correspondencias: método descriptivo (no explicativo) que permite visualizar los datos, de naturaleza cualitativa o cuantitativa, mediante la representación de una nube de puntos en un espacio de dimensiones reducidas, en función de las distancias geométricas entre los puntos.
Discurso: contenido del cuerpo o texto a estudiar.
Enunciación: la forma en que una persona plantea o expone un concepto lingüístico; dependerá de su acceso lexical (la profundidad del mismo).
Índice lexical jerárquico: contabilización de la frecuencia contenida en el cuerpo o texto estudiado.
Lexicometría o estadística lexical: aquélla en la que el área de interés está representada por la lista de todas las formas lexicales acompañadas, cada una, de un efectivo numérico: su frecuencia de empleo.
Matiz referencial global: preferencias léxicas de los autores de un discurso.
Minería de datos textuales: uso de métodos, partiendo siempre del análisis descriptivo, el análisis de correspondencias y la clasificación a tablas específicas, creadas a partir de los datos textuales.
Polisemia: análisis del contexto en que fue utilizada una palabra.
Puntos de densidad: aquellas palabras que se repiten con mayor frecuencia en el índice lexical jerárquico.
Repertorio lexical: inventario de palabras que se repiten dentro del discurso.
Referencias
Libros de apoyo: