San Fermín: implementación del back end

Objetivos

El objetivo del proyecto, en su parte de redes sociales, consiste en monitorizar publicaciones relacionadas con los Sanfermines para extraer datos de las mismas y presentarlos dentro de una página web amigable.

Entre toda la información disponible en ese océano interminable de contenido llamado Internet,  optamos por recoger lo siguiente:

  • Toda la información proveniente de Twitter relacionada con las fiestas
  • Todas las fotos procedentes de Instagram localizadas por la zona de Pamplona.

Continuar leyendo «San Fermín: implementación del back end»

Elasticsearch: un vistazo bajo el capó

Elasticsearch es una herramienta muy interesante. No sólo nos permite almacenar y consultar grandes cantidades de documentos ofreciendo unas capacidades de búsqueda excelentes, sino que también nos permite extraer todo tipo de información de ellos. Capacidades como contar el número de veces que aparece un término en una selección de documentos, crear completas estadísticas por fecha, categoría o ubicación…

Pero, como muchos sabréis, un SSD convencional es capaz de leer datos a una velocidad de 500MB/s, siendo generosos. Entonces, ¿Cómo es posible encontrar y clasificar información en conjuntos de datos de cientos de gigabytes en cuestión de unos pocos milisegundos? La respuesta está en los índices y en una serie de cuidadosas estructuras de datos. Estas estructuras son inmutables y se almacenan de un modo fácil de cachear por el sistema operativo. Continuar leyendo «Elasticsearch: un vistazo bajo el capó»