cómo hacer gráficos con la palabra que más se repite

Quizá han visto algunos gráficos en internet o en publicidad donde podemos ver una serie de palabras ordenadas y que resaltan las palabras mas populares o mas utilizadas en un texto, si no lo han visto hablo de una imagen como la siguiente.

ejemplo diagrama word cloud


Este tipo de diagramas pueden construirse con la ayuda de Natural Language Processing, es decir un procesador de lenguaje que es capaz de interpretar las palabras. Tenemos varias aplicaciones para el procesamiento de lenguaje natura:
  • Como es en los chatbot
  • En los correctores de ortografía
  • En las aplicaciones que nos ayudan con la gramática
  • Resultados de búsqueda en navegadores
  • Texto predictivo en nuestros celulares o en correos
  • Traducción de texto
  • Análisis de datos 
Hoy les quiero platicar acerca del ultima aplicación, Análisis de Datos utilizando  Python y la librería Word Cloud para poder analizar datos y generar un diagrama como la primer imagen de esta publicación. 

Para hacerlo interesante tome una conversación de mi WhatssApp y lo respalde para tener un archivo de texto, es decir nuestro archivo de entrada. Para hacerlo selecciona el chat y da click en los 3 puntos de la esquina superior derecha y selecciona mas y luego Exportar chat, te lo puedes enviar por correo.
Después cree un Notebook en Jupyter ese archivo lo guarde en una variable leyendo el contenido del archivo y después generar el grafico. En resumen lo que haremos es como se ve el siguiente diagrama.



Para instalar la libreria https://pypi.org/project/wordcloud/  pip install wordcloud


El código del programa es el siguiente

import os
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt
from nltk.corpus import stopwords

# Leer los datos
#df = pd.read_fwf('Data/datosentrada.txt',header=None, encoding = 'utf8')
text_file = "Data/datosentrada.txt" #Modify this path accordingly
text = open(text_file, "r", encoding="utf-8").read()
text = text.lower()

#limpiar datos
text = text.replace('<multimedia omitido>','')

#definir stop word como la, lo 
nltk_sw = stopwords.words('spanish')


"convertir datos
# Create and generate a word cloud image:
word_cloud = WordCloud(
        width=3000,
        height=2000,
        random_state=1,
        background_color="salmon",
        colormap="Pastel1",
        collocations=False,
        stopwords=nltk_sw,
        ).generate(text)

#mostrar grafica
plt.imshow(word_cloud)
plt.axis("off")
plt.show()

Procese el archivo con nuestra librería Word Cloud y obtuve la siguiente imagen.


Podemos también utilizar una imagen para darle forma a nuestro grafico, como algo así


Un video para explicarles los pasos y vean como funciona




He de decir que me pareció muy divertido hacer este programa y poder conocer un poco mas de la información y verlo en una grafica. ¿En que mas podrían utilizarlo? a mi se me ocurre lo siguiente:

  • Si tienes un blog puedes tomar los comentarios que recibes y analizarlos asi
  • Si tienes un chat de ventas igual podrías ver cuales son las palabras mas utilizas y revisar si tus clientes están satisfechos o no
  • En un libro que estas escribiendo o si eres creador de contenido analizar tus textos
  • Si eres maestro y quieres saber que palabras son las que mas utilizan tus alumnos en su redacción
  • En una empresa, por ejemplo en RH las entrevistas de salida o de ingreso
Espero les sea de utilidad, nos compartan y dejen sus comentarios.
#programacionparatodos
#ejemplospython

Comentarios

Entradas populares