Como explicamos en el blog inicial de esta serie, el proyecto San Fermín en directo, trata de dar una muestra de los datos que hay alrededor de los sanfermines. En este artículo, profundizaremos en el modo de obtención de los datos para la consecución de las dos partes de las que consta: redes sociales y predicción del encierro.
Redes sociales.
La idea original era dar una visión en tiempo real de lo que está sucediendo en la ciudad. Valoramos diferentes opciones e ideas, pero finalmente nos decantamos por la opción redes sociales, ya que nos permite poder mostrar el contenido que se genera en tiempo real, además de poder analizarlo y filtrarlo. Una vez tomada esta decisión, había que elegir qué redes sociales utilizar, y qué contenido mostrar.
Se valoraron las redes sociales más conocidas: Facebook, Instagram, Twitter, Google Plus, Youtube. Nos quedamos con aquellas en las que, potencialmente, se genera más contenido en tiempo real: Facebook, Instagram y Twitter. Tras analizar los datos que publican de manera pública a través de sus APIs, decidimos implementar la obtención de datos de Twitter e Instagram, ya que Facebook no proporcionan información pública relevante para un proyecto como este.
Decididas las redes sociales, pensamos en la información que queríamos obtener. La obtención de los datos relacionados con los conceptos más comunes relacionados con sanfermines, fue la primera decisión y la más evidente, pero ¿nos interesaba obtener toda la información o solamente aquello que fuera más relevante? ¿Toda la información o solamente aquella que se genera en Pamplona?
Como todos sabemos, en las redes sociales se genera información muy interesante, pero también se genera mucho ruido. Por ello, la opción de filtrar los datos nos parecía una estrategia muy recomendable:
- Realizando un filtrado por información relacionada con los sanfermines. Para ello, filtramos la información por los conceptos y hashtags más relevantes .
- Añadido a esto, nos surgía la duda si toda la información era relevante para el proyecto, o había que filtrar más la información. Entonces surgía la idea de la geolocalización.
Por nuestra experiencia, sabemos que la información geolocalizada que proporcionan las redes sociales es una mínima parte de lo que se genera (aproximadamente un 1% según nuestros cálculos), consideramos que, para el concepto «en directo» era lógico realizar este filtrado. Adicionalmente, lo que más nos interesaba era mostrar qué estaba ocurriendo en las calles de Pamplona durante las fiestas, por lo que nos centramos en localizaciones de Pamplona.
Se han definido cinco zonas, donde se intenta abarcar todos los eventos que se proponen durante las fiestas.
- Aprovechando el desarrollo realizado para la geolocalización, consideramos interesante realizar un análisis a nivel mundial de la conversación en las redes sociales, para ver qué repercusión tienen las fiestas en las diferenetes zonas del mundo.
Encierro.
Para la predicción del encierro, queríamos conseguir la mayor cantidad de datos posible. Datos que nos interesaban eran:
- Ganadería
- Pesos de los toros.
- Color de los toros.
- Heridos de asta por tramo.
- Tramatismos por tramo.
- Montones en el encierro.
- Estado del suelo.
- Cambios en el recorrido: cambio de suelo, antideslizante, aceras…
- Sucesos: toro vuelto, toros solos, salen menos toros…
- Meteorología.
- Predicción meteorológica para el 2018.
- Afluencia en el encierro.
- Nacionalidad de los heridos.
- Ocupación hotelera.
- Cualquier otro dato que pudiera ser relevante.
Nuestro primer paso, fue contactar con personas y organismos que, por su conocimiento, considerábamos podían ayudarnos y guiarnos con los datos. La respuesta que obtuvimos fue muy amable, pero no nos podían proporcionar mucha información, más allá de datos bastante globales, muy interesantes, pero insuficientes para lo que nosotros queríamos. Ahora bien, sí que nos dieron algo muy importante que fue guía en posibles fuentes donde podríamos obtener datos. Con esto, recurrimos a fuentes de datos más tradicionales: bibliografía y hemeroteca. Tras la investigación, conseguimos obtener datos completos para las siguientes categorías:
– Ganaderías.
– Estado del suelo.
– Heridos de asta por tramo.
– Nacionalidad de los heridos por asta.
– Cambios en el recorrido.
– Meteorología histórica.
– Predicción meteorológica para el 2018.
Todos ellos desde 1980 hasta 2017.
Conseguimos algunos datos más referentes a traumatismos por tramo, montones, sucesos del encierro, afluencia, pero, o bien no eran datos completos desde 1980 o no nos resultaron interesantes para el proyecto. Por ambos motivos, decidimos desecharlos.
Con todo esto, comenzamos a construir el resto del proyecto.
Referencias
Fuentes digitales
Web de San Fermín en Kukuxumuxu
Crónicas del diario El País
Hemeroteca del Diario de Navarra alojada en la Biblioteca General de Navarra
Biblografía
García Olaverri, Carmen (2006), Encierros de San Fermín : 1980-2005 : datos básicos / recopilación de datos , Kukuxumusu ; análisis de datos, Pamplona, Universidad Pública de Navarra = Nafarroako Unibertsitate Publikoa, D.L. 2006.
Solano Javier, (2004), 25 años de encierros en Pamplona / Javier Solano, Pamplona, Hotel Maisonnave, [2004-2005]
.
.
.
Este artículo es parte de la serie relatando nuestra experiencia en la construcción del proyecto San Fermín en directo.