Metodología

Nuestra investigación pretende explorar la capacidad predictiva de las redes sociales en relación con las elecciones primarias y la elección presidencial que se llevan a cabo este año (2017) en Chile.

Dado el carácter exploratorio ya mencionado, no optamos por una hipótesis, sino que somos guiados por una pregunta de investigación y un objetivo general. La pregunta guía es la que sigue:

¿Qué técnicas de inteligencia computacional que monitoreen el comportamiento de los usuarios de Twitter permiten predecir con mayor precisión los resultados electorales de las elecciones presidenciales chilenas?

En base a esta pregunta se consensuó el siguiente objetivo general:

Evaluar la capacidad predictiva de diversas métricas aplicadas a la red social Twitter, para predecir con la mayor precisión posible los resultados electorales de las elecciones presidenciales chilenas, mediante la construcción de un modelo de pronóstico que considere elementos del contexto sociocultural y situacional, empleando técnicas de inteligencia computacional.

Esta labor es abordada interdisciplinariamente por un equipo PUCV conformado por un lingüista, tres ingenieros computacionales, y dos académicos de la Escuela de Periodismo, especializados en análisis político. A ello se suma un equipo de tres profesionales de apoyo (dos ingenieros informáticos y una periodista especializada en redes sociales) y un equipo de ayudantes.

A partir de la segunda semana de mayo de 2017 la empresa Analitic (nacida en la PUCV), extrae automáticamente los tweets de la red social y nos proporciona una base de datos con los mensajes y metadatos de todos/as los usuarios/as chilenos/as que en Twitter mencionan al menos cuatro veces a alguno de los candidatos.

Algunos de los metadatos utilizados son:

  • Nombre de usuario que emitió el tweet
  • Fecha de publicación del mensaje
  • Cantidad de seguidores del usuario
  • Cantidad de personas que sigue el usuario
  • Aplicación utilizada para generar el tweet (Android, Facebook, HootSuite, etc)
  • Cantidad total de mensajes emitidos por el usuario a la fecha que publicó el tweet

El proveedor Analitic guarda estos mensajes en bases de datos de su propiedad, nosotros los rescatamos mediante un algoritmo de recolección de datos, para luego hacer un respaldo de los mensajes y los metadatos en nuestros servidores. Esta información es procesada y analizada por nuestro equipo y con ella se elaboraron una gran cantidad de gráficos y tablas en un sitio propio.

Captura de pantalla 2017-09-21 a las 19.49.57.png
Flujo de extracción y almacenamiento de los tweets

Una vez recolectados los datos comienza el proceso de clasificación, siempre con el propósito predictivo en mente. Aquí entramos a la etapa denominada “análisis de sentimiento” (Montesinos 2014, U de Chile), técnica que mediante procesamiento computacional de lenguaje permite clasificar comentarios de usuarios.

La clasificación manual sigue el criterio positivo/negativo/neutro, es decir, se catalogan las opiniones en polaridades, guiados por la hipótesis de correspondencia ya mencionada (Aparaschivei, 2010, Deltell, 2012, Tumasjan el at. 2011).

Para ello, elaboramos un libro de código para los ayudantes que los orienta en su tarea. Este libro define, por ejemplo, que un post expresa una intención real de voto a favor de un candidato sólo si se satisface al menos una de las tres condiciones siguientes:

  1. El post incluye una declaración explícita relacionada con la disposición a votar para un candidato / partido. Ejemplo: En las primarias voy a votar por @mjossandon #PrimariasPresidenciales #Chile2017.
  2. El post incluye una declaración a favor de un candidato / partido, junto con un mensaje o un hashtag conectado a la campaña electoral de ese candidato / partido. Ejemplo: Beatriz Sánchez es una cara nueva que limpiará la política #ConfianzaQueCambiaChile.
  3. El post incluye una declaración negativa que se opone a un candidato / Con un mensaje o un hashtag conectado a la campaña electoral de un candidato / partido rival. Ejemplo: Me carga lo sinvergüenza que es @sebastianpinera Vamos todos por @fkast #FueraPiñera.

Este trabajo humano de catalogación de sentimiento, fue la base para comenzar con técnicas de aprendizajes de máquinas (machine learning) necesarias para generar modelos predictivos. Es decir, los criterios de etiquetación humana (análisis de sentimiento) deben ser aprendidos por las máquinas.

Esto ocurre con el uso de algoritmos de aprendizaje supervisados y algoritmos de imitación, en el entendido de que se trata de programas que con el insumo proporcionado (los datos de la clasificación humana) logran entender mediante herramientas estadísticas los patrones entre datos (mensajes) y  etiquetas (positivo/negativo/neutro), y luego discriminarlas automáticamente. La finalidad es que se imite el comportamiento humano al enfrentarse a nuevos datos a clasificar.

Para el entrenamiento de los algoritmos con los datos clasificados manualmente, se emplea programación algorítmica que transforma dichos tweets, mediante técnicas de procesamiento de lenguaje natural, en una representación vectorial.

Esta representación, denominada bolsa de palabras (bag of words) traduce los tweets a un lenguaje que las maquinas pueden entender y esa traducción se usa como entrada de datos, para que las máquinas sepan interpretarlos (en polaridades) y usarlos (predictivamente).

Con los algoritmos ya parametrizados y entrenados generamos nuestros propios clasificadores para el análisis de sentimiento automatizado y el ejercicio de predicción de las elecciones.  Cabe señalar que entendemos los clasificadores como un algoritmo ya entrenado con los datos relevantes al ejercicio.

Eventos mediáticos

Por otro lado, y considerando que tal como se menciona en la formulación del objetivo general, nos interesa relacionar la actividad en la RS con el contexto-país, también se realiza un seguimiento de hechos mediáticos (debate y entrevistas a candidatos) y no mediáticos (proclamaciones, concentraciones, inscripciones, etc.) relacionados con las elecciones.

Partimos de la base que las curvas en Twitter a menudo están relacionadas con situaciones que ocurren fuera de la red, tanto en medios tradicionales, como en eventos políticos.