Análisis de Tweets Sobre el Terremoto en México

El martes 19 de septiembre, un sismo de 7.1 grados occurrío en México con graves impactos en la Ciudad de México, los estados de Morelos y Puebla.

Hasta hoy, en la CDMX, se reportan al menos 180 muertos, casi 40 edificios derrumbados, y cienes sino miles de edificios con daños graves, que implicarían la necesidad de derrumbarlos.

Este fue el sismo con más grave impacto en México desde el que, en una trágica coincidencia, ocurrío el mismo día 32 años antes en 1985.

Una gran diferencia entre lo ocurrido en 1985 y los útlimos días, es que la mayoría de la gente lo ha experimentado a través de los medios digitales, y en particular las redes sociales.

He hablado con personas sobre sus memorias de 1985, y en general un tema constante fue la dificultad en saber exactamente qué estaba pasando en diferentes partes de la ciudad. En contraste, en los últimos días, ha sido casi imposible no estar enterado en tiempo real de los eventos.

Las Redes Sociales - ¿Una bendición o una maldición?

En muchos aspectos las redes sociales y los apps de comunicación han sido claves para la reacción ante este destastre, al menos en la CDMX.

En los primeros minutos después del temblor, las líneas telefónicas se saturaron o de plano no funcionaban, y para muchas personas el primer contacto con sus seres queridos y amigos fue por mensajes de WhatsApp o Facebook.

Después, una vez que la escala del daño y destrucción se hizo claro, la gente comenzó a meterse a Twitter y Facebook para enviar notificaciones acerca de los edificios y gente en peligro, y a difundir mensajes sobre las necesidades de comida, medicina y herramientas.

Sin embargo, ha sido claro que el virtuoso impulso humano de ayudar no siempre tiene las mejores consecuencias. En algunos casos, mensajes sobre edificios caídos sin ayuda, que después resultaron ser falsos, se fueron virales y provocaron una afluencia de personas a las zonas mencionadas, causando trafico y caos en las calles.

De la misma forma, la gente seguía compartiendo noticias y peticiones de ayuda más de 24 horas después, cuando la situación ya era muy diferente, y seguramente desviando recursos valiosos de donde más se necesitaban.

¿Cómo manejarnos mejor en las redes sociales?

México es uno de los paises con mayor actividad sísmica en el mundo. Es una lamentable realidad que en algun momento, ocurrirá otro terremoto igual o peor que el del pasado 19 de septiembre. No podemos predecir cuando, solo podemos tratar de estar más y mejor preparados cada vez.

En realidad los mensajes y tweets de los últimos días son una fuente de datos increíble para entender mejor las reacciones de la gente ante desastres como este. Podemos investigar preguntas como:

  • ¿Qué dice la gente en diferentes momentos después del evento?
  • ¿Cuáles con las características de los mensajes virales?
  • ¿Cómo evolucionan las peticiones de ayuda, víveres y herramientas por hora y día?

Con esta información, podemos comenzar a trabajar en construir mejores herramientas digitales para el futuro, por ejemplo para coordinar voluntarios y donaciones, y prevenir el flujo de información mala o anticuada.

Con este propósito, durante los últimos días, empecé a bajar todos los tweets enviados sobre el sismo entre el martes y el viernes en la tarde.

Los criterios para filtrarlos fue:

  1. Tweets usando ciertas hashtags (e.j, #sismo, #SismoMexico2017, #ayudaCDMX)
  2. Tweets enviados desde o a cuentas claves (ej. Cruz Roja, Protección Civil)

La busqueda tardó casi cuatro días, y el resultado fue un archivo con 50 GB de datos conteniendo 7.3 millones de tweets (aunque esto incluye no solo los tweets sino los metadatos también).

¿Qué podemos aprender de toda esta información?

1. La gente comenzó a tuitear minutos después del sismo.

De hecho, en solo las 6 horas entre las 2pm y 8pm del martes 19 de septeimbre, se enviaron más de 1.6 millones de tweets, o 23% del total que recuperé a través de la busqueda.

Abajo se puede ver la distribución de tweets enviados por hora durante las 72 horas después del sismo:

Número de Tweets Enviados por Hora

Nota: Esto no significa que la gente dejo de tuitear el viernes sobre el sismo; puede ser que algunos nuevos hashtags ganaron popularidad.

2. Se usaron los hashtags para dar más visibilidad a los tweets

De los 7.3 millones de tweets, el 93% contenían algun hashtag (aunque esto no debe sorprender tanto ya que fue un criterio importante para construir la base).

Dentro de los top 10, los hashtags referentes a la Ciudad de México fueron 3.5 veces más comunes que los de Puebla or Morelos.

Hashtags Más Comunes

3. Entre los tweets más compartidos fueron avisos oficiales, peticiones de ayuda y temas sobre perros

tweet_1

tweet_2

tweet_3

tweet_5

tweet_7

tweet_8

4. Se registraron tweets de todas partes del mundo, aunque la concentración más alta fue dentro de la ciudad de méxico

Nota: La mapa geográfica no es representativa de todos los tweets enviados; del total de 7.3 millones, solo 3,939 (0.05%) tienen metadatos geográficos

5. Entre todos los tweets recopilados, las palabras más comunes fueron 'México', 'personas' y 'favor'


6. Por mucho, la frase más popular fue "centro de acopio"

Top 16 Bigramas Más Comunes Entre los Tweets

Nota:
Los bigramas son grupos de dos palabras. En este caso, antes de calcular las frecuencias, quitamos las palabras comunes (ej., el, esta, en ) y convertimos las palabras a su forma raíz.

7. Dentro de los tweets pidiendo ayuda, algunos de los objectivos fueron 'manos', 'planta', 'encontrar' y 'difundir'

Palabras Más Comunes en Solicitud de Ayuda


8. Cuando se solicito voluntarios, los mensajes seguían siendo compartidos más de 20 horas después

Como mencioné al principio, un problema, al menos anecdotalmente, fue la difundación de información anticuada.

Esto lo podemos analizar viendo el comportamiento de los re-tweets de mensajes como:

"Se solicitan más voluntarios en Xochimilco. Solicitamos herramienta de recambio en Amsterdam esq. Huichapan para continuar rescates."

"Necesitamos muchas manos en Viaducto y Monterrey, a una cuadra de parque delta, muchos ya se fueron. Denle RT. #Sismo #prayformexicocity"

"San Gregorio Xochimilco necesita ayuda. Hay gente bajo los escombros, se necesitan víveres y voluntarios #AyudaCDMX"

En total, estos tres mensajes resultaron en casi 34,000 re-tweets, y abajo podemos ver que aproximadamente 30% de ellos fueron más de 5 horas después del mensaje inicial.

Distribución de Retweets por Hora Después del Tweet Inicial

Resumen / Conclusión

En general estas gráficas representan solo una fracción pequeña de los insights que podemos obtener de una fuente de información como esta.

En particular, hay muchas técnicas de análisis de texto que podríamos aplicar para entender, por ejemplo, el tono de la gente, y para rastrear los tipos de mensajes y peticiones de ayuda en diferentes momentos de las primeras 24 horas.

Sin embargo, es muy interesante ver la historia del sismo contado a través de los tweets, desde la intensidad en volumen en las primeras horas, hasta la necesidad de también compartir cosas más leves, como por ejemplo las historías de los perros rescatistas.

Lo tomo como una señal muy positiva que los dos tweets más compartidos fueron uno avisando sobre la herramienta de Google para localizar personas, y otro tratando de minimizar las noticias falsas, y reforzando que no se pueden predecir los terremotos.

Como siguiente paso, me enfocaría en tratar de crear una herramienta que puede medir la similitud entre tweets, para poder identificar en tiempo real los casos en donde la gente comparte información o noticias falsas o ya no relevantes.

Esto podría combinarse con un chatbot que toma nota de datos nuevos, y responde automaticamente a la gente compartiendo información anticuada.

Notas:

Búsqueda de Tweets:
  1. La lista completa de hashtagas usadas en la busqueda es: ayudaCDMX, fuerzamexico, sismo, SismoMexico2017, Sismomexico2017, AyudaMéxico, AyudaMexico, FuerzaMexico, fuerzaCdMx, cdmxsismo, Morelos, Puebla, MorelosEstaDePie, PueblaSigueDePie, PueblaEstaDePie, mexicoestadepie, Sismo, Rebsamen, ERUM, RescatePrimero
  2. La lista completa de cuentas usadas en la busqueda es: SismologicoMX, SPCCDMX, PcSegob, SEGOB_mx, SeGobCDMX, VoluntariosErum, topos, MetroCDMX, SSP_CDMX, PoliciaFedMx, CruzRoja_MX
Tweets Más Compartidos:
  1. En la sección de tweets más compartidos, son el número 1, 2, 3, 5, 7 y 8 respectivamente
Analisis de Bigramas:
  1. Para analizar los bigramas, primero eliminé las palabras comunes (stop words), y convertí las palabras a su forma raíz usando un Stemmer de nltk
  2. En la gráfica, traté de convertir las palabras raíz a una forma más fácil de leer, ej., 'necesitar' en lugar de 'necesit'
  3. La gráfica no incluye bigramas que son nombres comunes (ej., Ciudad México, Cruz Roja)
  4. Eliminé de la gráfica algunos de los bigramas repetidos
Palabras Más Comunes en Solicitud de Ayuda
  1. Para analizar estas palabras, comencé con las palabras base: "urge", "necesitamos", "solicitamos", "requiere"
  2. Después, usando la lista de bigramas, conté las palabras más comunes a seguir una de las palabras "base"
  3. De la lista final, eliminé "ayuda", "apoyo", "crear", "urge" y "siguiente" ya que no agregan valor y quería entender el tipo de ayuda que la gente pedía

Written by Simon Bedford in Data Science on Sun 24 September 2017. Tags: data-science, visualization, python,