diegoreico

Interesting FOSDEM 2019 Talks for people working with Data

2019-08-02T00:00:00+00:00

Last year I could attend to FOSDEM 2018 edition at Brussels and I was amazed with the number of cool talks that FOSDEM hosts at the same time (it’s pretty crazy! look at the full schedule for 1 day)

Unfortunetly, this year I couldn’t attend to FOSDEM 2019 edition, BUT I filtered all the uploaded talks to only select thoose ones relevant for people with interests on Data Science (like me). By the way, all the recordings are avaliable on the FOSDEM’s ftp web server if you want to check them.

Note: this list is subject to changes

AI - HPC/Data Science dev room

GEO

Databases

Improve your SQL

Graphs

ML on Code

Searching

Python

Rocking with Flink on a Zeppelin

2018-06-09T00:00:00+00:00

I recently started to use Apache Zeppelin, because I wanted a tool that allows me to work with notebooks using Scala + Apache Flink and as a plus, Apache Zeppelin provides you with autogenerated plots if you print you data as TSV file !!!!!!!

%table
t0 	 t1 	 t2 	 t3 	 t4 	 t5 	 t6 	 t7 	 t8 	 t9 	 t10 	 t11 	 t12 	 t13 	 t14
2	3	4	5	0	0	0	0	0	0	0	0	0	0
1	2	3	4	5	0	0	0	0	0	0	0	0	0
2	2	2	3	4	4	5	0	0	0	0	0	0	0
3	4	5	0	0	0	0	0	0	0	0	0	0	0
1	1	2	2	2	3	3	3	4	4	4	5	5	5
1	2	3	1	4	5	0	0	0	0	0	0	0	0
2	3	1	1	4	5	0	0	0	0	0	0	0	0
5	3	2	4	0	0	0	0	0	0	0	0	0	0
5	5	3	2	1	4	0	0	0	0	0	0	0	0
5	5	3	5	1	4	2	0	0	0	0	0	0	0
3	3	3	4	5	1	0	0	0	0	0	0	0	0

If you print your data inside a notebook paragraph it will automatically allow you to do scatter plots, bar plots, pie charts, etc. and c’mon that’s freaking amazing, you don’t have to write you data in a DB/File/Thing and then plot the data using other tools, so you can have all your work in a single place and that’s nice.

So, if everything is nice, what am I doing here writting all this? By default, Zeppelin brings a Flink interpreter that you can use to run Flink workloads and when you execute it for the first time, it will start a Flink local minicluster in wich Zeppelin will run your workload and that’s great if you are doing small tests, but when the problem scales a bit that cluster isn’t enough. Also the Flink minicluster that brings Zeppelin is running Flink 1.1.3 and Flink 1.5 it’s already out. The sad part about this, it that i only had time to make it run with Flink 1.4.2, because until that version Flink’s jobs could be sended using an RPC port Job Manager’s port 6123, but since that version jobs should be sended using Flink’s REST API, so Zeppelin’s interpreter should be patched to use the REST API.

Creating our environmet

Let’s get dirty and start to work a bit on all this, first of all we need to create the environment that we want to use, in this case it will be a Zeppelin Notebook Server, a Flink node running a Jobmanagar and two Flink nodes running Taskmanagers. With this in mind I’ve made the following docker-compose file:

version: "3"

services:
#=============================
#           FLINK
#=============================
  jobmanager:
    image: flink:1.4.2
    expose:
      - "6123"
    ports:
      - "6123:6123"
      - "8081:8081"
    command: jobmanager
    environment:
      - JOB_MANAGER_RPC_ADDRESS=jobmanager

  taskmanager:
    image: flink:1.4.2
    expose:
      - "6121"
      - "6122"
    depends_on:
      - jobmanager
    command: taskmanager
    links:
      - "jobmanager:jobmanager"
    environment:
      - JOB_MANAGER_RPC_ADDRESS=jobmanager
#=============================
#         ZEPPELIN
#=============================
  zeppelin:
    image: apache/zeppelin:0.7.3
    ports:
      - "8080:8080"

Once we have this docker-compose file we can create our environment running the following docker-compose command

docker-compose up -d --scale taskmanager=2

So our environment should look like this:

            Name                           Command               State                       Ports                      
-----------------------------------------------------------------------------------------------------------------------
zeppelinflink15_jobmanager_1    /docker-entrypoint.sh jobm ...   Up      0.0.0.0:6123->6123/tcp, 0.0.0.0:8081->8081/tcp 
zeppelinflink15_taskmanager_1   /docker-entrypoint.sh task ...   Up      6121/tcp, 6122/tcp, 6123/tcp, 8081/tcp         
zeppelinflink15_taskmanager_2   /docker-entrypoint.sh task ...   Up      6121/tcp, 6122/tcp, 6123/tcp, 8081/tcp         
zeppelinflink15_zeppelin_1      /usr/bin/tini -- bin/zeppe ...   Up      0.0.0.0:8080->8080/tcp   

NOTE: my containers start with the prefix 'zeppelinflink15' because thats the name of the folder in which im working

If we access to http://localhost:8080 we should have access to zeppeling UI

And if we access to http://localhost:8081 we should be able to see Flink’s Web UI

Setting up the environment

Once we have all the parts that we need, the next step is to configure Zeppelin to use our Flink cluster when we run a paragraph of code with the flink interpreter %flink. For this, we need to go to the interpreters section inside Zeppelin UI and find the Flink interpreter %flink

Before changing anything in the interpreter I want to show you which libraries contains that interpreter, to understand wich changes we are gonna do. So let’s connect to the Zeppelin container that we have created with docker-compose using:

NOTE: to obtain the name of the Zeppelin container use sudo docker-compose ps

docker exec -it zeppelinflink15_zeppelin_1 /bin/bash

Once inside the container we can run the following command to check the dependencies that is using the Flink interpreter

ls interpreter/flink/

activation-1.1.jar
akka-actor_2.11-2.3.7.jar
akka-remote_2.11-2.3.7.jar
akka-slf4j_2.11-2.3.7.jar
akka-testkit_2.11-2.3.7.jar
aopalliance-1.0.jar
avro-1.7.6.jar
chill_2.11-0.7.4.jar
chill-java-0.7.4.jar
commons-beanutils-bean-collections-1.8.3.jar
commons-cli-1.3.1.jar
commons-codec-1.5.jar
commons-collections-3.2.1.jar
commons-compress-1.4.1.jar
commons-configuration-1.9.jar
commons-daemon-1.0.13.jar
commons-digester-1.8.1.jar
commons-el-1.0.jar
commons-io-2.4.jar
commons-lang-2.5.jar
commons-lang3-3.3.2.jar
commons-logging-1.1.1.jar
commons-math3-3.5.jar
commons-net-3.1.jar
config-1.2.1.jar
flink-annotations-1.1.3.jar
flink-clients_2.11-1.1.3.jar
flink-core-1.1.3.jar
flink-java-1.1.3.jar
flink-metrics-core-1.1.3.jar
flink-optimizer_2.11-1.1.3.jar
flink-runtime_2.11-1.1.3.jar
flink-scala_2.11-1.1.3.jar
flink-scala-shell_2.11-1.1.3.jar
flink-shaded-hadoop2-1.1.3.jar
flink-streaming-java_2.11-1.1.3.jar
flink-streaming-scala_2.11-1.1.3.jar
force-shading-1.1.3.jar
grizzled-slf4j_2.11-1.0.2.jar
gson-2.2.jar
guice-3.0.jar
jackson-annotations-2.4.0.jar
jackson-core-2.4.2.jar
jackson-core-asl-1.9.13.jar
jackson-databind-2.4.2.jar
jackson-mapper-asl-1.9.13.jar
javassist-3.18.2-GA.jar
javax.inject-1.jar
java-xmlbuilder-0.4.jar
jaxb-api-2.2.2.jar
jersey-core-1.9.jar
jetty-util-6.1.26.jar
jline-0.9.94.jar
jsch-0.1.42.jar
jsr305-1.3.9.jar
kryo-2.24.0.jar
log4j-1.2.17.jar
metrics-core-3.1.0.jar
metrics-json-3.1.0.jar
metrics-jvm-3.1.0.jar
minlog-1.2.jar
netty-3.8.0.Final.jar
netty-all-4.0.27.Final.jar
objenesis-2.1.jar
org.apache.sling.commons.json-2.0.6.jar
paranamer-2.3.jar
protobuf-java-2.5.0.jar
scala-compiler-2.11.7.jar
scala-library-2.11.7.jar
scala-parser-combinators_2.11-1.0.4.jar
scala-reflect-2.11.7.jar
scala-xml_2.11-1.0.4.jar
scopt_2.11-3.2.0.jar
servlet-api-2.5.jar
slf4j-api-1.7.10.jar
slf4j-log4j12-1.7.10.jar
snappy-java-1.0.5.jar
stax-api-1.0-2.jar
uncommons-maths-1.2.2a.jar
xmlenc-0.52.jar
xz-1.0.jar
zeppelin-flink_2.11-0.7.3.jar
zookeeper-3.4.6.jar

And in all that mess we can see that it is using Flink 1.1.3 for Scala 2.11:

ls interpreter/flink/ | grep "flink"

flink-annotations-1.1.3.jar
flink-clients_2.11-1.1.3.jar
flink-core-1.1.3.jar
flink-java-1.1.3.jar
flink-metrics-core-1.1.3.jar
flink-optimizer_2.11-1.1.3.jar
flink-runtime_2.11-1.1.3.jar
flink-scala_2.11-1.1.3.jar
flink-scala-shell_2.11-1.1.3.jar
flink-shaded-hadoop2-1.1.3.jar
flink-streaming-java_2.11-1.1.3.jar
flink-streaming-scala_2.11-1.1.3.jar
zeppelin-flink_2.11-0.7.3.jar

Now that we have ensured ourselves that we don’t have compatible libraries for our Flink Cluster, we have to add them to the interpreter in some way. I have choose to edit the flink interpreter using the UI and add the following dependencies supressing the Scala classes because we already have that libs loaded in the interpreter.

NOTE: the dependencies will be downloaded from mvn central repository

artifact	exclude
org.apache.flink:flink-streaming-scala_2.11:1.4.2	org.scala-lang:scala-library,org.scala-lang:scala-reflect,org.scala-lang:scala-compiler
org.apache.flink:flink-scala_2.11:1.4.2	org.scala-lang:scala-library,org.scala-lang:scala-reflect,org.scala-lang:scala-compiler
org.apache.flink:flink-clients_2.11:1.4.2	org.scala-lang:scala-library,org.scala-lang:scala-reflect,org.scala-lang:scala-compiler

And I have also changed the property host of the interpreter from local to jobmanager, with this change the Flink interpreter will access to the container inside our docker-compose, named as Jobmanager, instead of start a new Flink mini cluster when we run a Flink paragraph.

Image with all changes made

Testing

With all changes made, now you should be able to run the following piece of code inside your Flink interpreter on top of your Flink cluster.

val dataset = benv.fromCollection(List(
    Array(1,2,3,4,5,0,0,0,0,0,0,0,0,0,0),
    Array(1,1,2,3,4,5,0,0,0,0,0,0,0,0,0),
    Array(1,2,2,2,3,4,4,5,0,0,0,0,0,0,0),
    Array(1,3,4,5,0,0,0,0,0,0,0,0,0,0,0),
    Array(1,1,1,2,2,2,3,3,3,4,4,4,5,5,5),
    Array(1,1,2,3,1,4,5,0,0,0,0,0,0,0,0),
    Array(1,2,3,1,1,4,5,0,0,0,0,0,0,0,0),
    Array(1,5,3,2,4,0,0,0,0,0,0,0,0,0,0),
    Array(1,5,5,3,2,1,4,0,0,0,0,0,0,0,0),
    Array(1,5,5,3,5,1,4,2,0,0,0,0,0,0,0),
    Array(2,3,3,3,4,5,1,0,0,0,0,0,0,0,0)
    )
)

val results = dataset.collect()

var table = "%table\n"
table += "t0 \t t1 \t t2 \t t3 \t t4 \t t5 \t t6 \t t7 \t t8 \t t9 \t t10 \t t11 \t t12 \t t13 \t t14 \n"
for(result <- results){
    for(item <- result){
        table += item + "\t"
    }
    table += "\n"
}
println(table)

For that piece of code you should have the following output without any errors:

And that’s all, I hope that this post could be helpful for those working with Apache Zeppelin and Apache Flink and you can ping me on twitter @diegoreico if you want to talk about something related to this.

Conectando Apache Flink con Elasticsearch

2017-06-12T00:00:00+00:00

Hace poco he empezado a utilizar el framework para desarrollo de aplicaciones en Streaming Apache Flink, el cuál es considerado como la 4ª generación de herramientas para el análisis de datos en un contexto de Big Data.

En general, la facilidad de uso del framework me ha parecido sorprendente, ya que permite realizar todo tipo de acciones distribuidas sobre nodos mediante el uso de funciones muy conocidas como pueden ser map y reduce, al mismo tiempo que permite realizar operaciones complejas sobre los datos en streaming, mediante el uso de varios tipos de ventanas.

Pero no todo en el framework va a ser bueno, en estos momentos la herramienta se encuentra en la versión 1.4 y está creciendo a un ritmo bastante sorprendente, pero el problema reside en que ni la documentación de la herramienta, ni la comunidad, están creciendo al mismo ritmo que el framework. Esto lo pude observar cuando intenté realizar una operación que debería ser relativamente sencilla, la cual consistía en almacenar los datos procesados por un streaming, en un contenedor de Docker sobre el que se ejecutaba una imagen de elasticsearch 5.4. A pesar de que en la documentación del framework Apache Flink existe un apartado de conectores, en el que se documenta como conectar el framework a la plataforma elasticsearch, en mi caso no he conseguido hacer funcionar el conector tras haberlo intentado un par de veces y tras realizar alguna que otra búsqueda de ejemplos, parece que no soy el único que se ha encontrado con esta barrera.

Abordando el problema

Para empezar, existen dos formas de conectarse a elasticsearch:

Mediante la API Java que se expone en el puerto 9300 por defecto
Mediante la API REST que se expone en el puerto 9200 por defecto

En una situación ideal, preferiría conectarme a elasticsearch mediante la API Java, pero he podido observar que las diferentes versiones de Apache Flink varían bastante y es necesario usar en cada versión los conectores específicos disponibles que ofrece el framework, para poder conectarnos a elasticsearch y esto genera unas dependencias en el proyecto con las que no me siento nada cómodo trabajando.

Entonces he optado por pasarme a mi segunda opción que es utilizar la API REST para conectarme a elasticsearch y de esta forma me olvido de los problemas de compatibilidad entre las diferentes versiones de elasticsearch con Apache Flink y sus conectores.

Manos a la obra

En mi caso estoy utilizando el framework Apache Flink en su versión 1.3, con la versión 2.10 del lenguaje Scala.

Lo primero que he realizado es añadir como dependencia al proyecto la libreía scalaj-http que actúa como un wrapper de java.net.HttpURLConnection y añade bastante azucar sintáctico. Para ello basta con añadir a nuestro pom.xml la siguiente dependencia.

Una vez que ya hemos añadido la dependencía, basta con realizar una simple petición POST contra la API de elasticsearch para insertar un dato, contra un índice que crearamos previamente. En este caso insertaremos un dato en el índice tfg:

Si queremos aplicar esto sobre los datos de nuestro streaming en Flink, bastaría con aplicar una operación map sobre el streaming:

Con esto, ya estaríamos insertando de forma sencilla nuestros datos en elasticsearch. Obviamente, esta no es la forma más eficiente de insertar los datos, ya que estamos generando una petición http por cada elemento de nuestro stream, cuando lo más razonable sería esperar a que se cumpla una ventana temporal o se acumule un volumen de datos considerable antes de realizar una insercción. Pero eso ya son cuestiones de diseño dependientes del comportamiento de cada sistema.

Por último, si queremos que esto tenga un toque un poco más profesional, en vez de formar en un String el JSON que queremos enviar en el cuerpo de la petición POST, sería conveniente utilizar un motor de renderizado de plantillas como puede ser mustache o pug.

Entendiendo la importancia del paso de mensajes

2017-05-24T00:00:00+00:00

Esta vez me apetece hablar de un concepto de diseño de software, como es el paso de mensajes, que ha calado en múltiples niveles del desarrollo del mismo, así como en la organización y la comunicación de los sistemas informáticos.

En que cosiste el paso de mensajes?

El paso de mensajes, lo podemos considerar como un tipo de arquitectura de software orientada a la comunicación de varios elementos, que se caracteriza por tener muy poco acoplamiento entre los elementos participes. Como su nombre indica, la idea detrás de esta arquitectura reside en la comunicación de los elementos mediante el envió de mensajes, en lugar de realizar una interacción directa entre ellos.

El paso de mensajes en su versión mas simple

La idea detrás de esta forma de diseñar software es bastante sencilla y natural para nosotros como seres humanos, tenemos a un productor de mensajes, un canal/medio en el que se publican mensajes y uno o varios receptores.

En este tipo de diseños, el emisor no necesita realmente especificar quien es el destinatario del mensaje que quiere enviar, su única preocupación es producir un mensaje y publicarlo en el canal de comunicación adecuado. Mientras que en el lado del Receptor, este simplemente se tiene que preocupar de si el mensaje se dirige a él y si entiende el contenido del mensaje. Si aplicamos esta idea al desarrollo de software, podríamos tener un código (java en este caso) como el siguiente:

Resultado

Consumidor: Acabo de recibir: Hello World! Consumidor: Acabo de recibir: 123456

Esto nos tiene que sonar

La implementación realizada anteriormente nos debería recordar al patrón de diseño Observer, donde un emisor mantiene una lista de Observadores que están a la espera de que el emisor emita algún tipo de evento.

La principal diferencia entre el diseño anterior y un patrón de diseño Observer puro, es que en nuestro diseño estamos desacoplando a los emisores y a los observadores mediante la introducción de un canal. Lo que realmente tenemos es una versión muy simple de un patrón de arquitectura de paso de mensajes, conocido como publica-subscribe.

Que principales ventajas nos proporcionan este tipo de diseños?

Bajo acoplamiento: como se puede apreciar en la implementación que realicé anteriormente, el productor únicamente necesitar tener acceso al canal y publicar un mensaje, por lo tanto se desentiende de quienes están recibiendo el mensaje, como lo reciben y que hacen con el mismo.
Alta escalabilidad: como se puede observar en el código proporcionado, “teóricamente” podemos aumentar el número de consumidores y productores de un canal de forma indiscriminada. Así mismo, podemos disponer de diferentes canales en función de su propósito y tanto un productor, como un consumidor, puede participar de forma activa en varios canales simultáneamente.
Debuggear facilmente: resulta muy sencillo el desarrollo de pruebas sobre este tipo de sistemas, porque podemos substituir cualquier productor o consumidor de mensajes por uno falso para asegurarnos de que el sistema se comporta como nosotros esperamos. Así mismo, también podemos introducir consumidores que actúen como sniffers en los canales, de forma que estos registren todos los mensajes que se envían por el canal y mantengan un log.

Que damos a cambio?

Cuando aplicamos cualquier tipo de patrón de diseño, así como de arquitectura, siempre estamos sacrificando algo. En este caso, el rendimiento de nuestro programa/sistema será inferior al de uno en el que todos los elementos del mismo se conecten directamente, pero es un precio justo si consideramos todo lo que estamos ganando.

Evolucionando el diseño base

Lo realmente interesante respecto al patrón de arquitectura que se ha presentado, es su gran versatilidad, ya que sin complicarnos mucho la vida podemos implementar y combinar cualquiera de los patrones de comunicación que se nos ocurra.

Por otro lado, si simplemente modificamos el canal que forma parte de nuestro diseño actual, también podemos lograr comportamientos bastante interesantes. A continuación se muestran posibles modificaciones:

Adición de persistencia al canal: puede ser de gran utilidad que el canal registre y mantengan un número determinado de mensajes y que los consumidores elijan cuando consumirlos, dando lugar al famoso patrón productor-consumidor.

Soporte de operaciones sobre el canal: independientemente de si el canal dispone o no de persistencia para los mensajes, es interesante barajar la opción del diseño de un canal que aplique una operación (normalmente una función pura) a todos los mensajes que este contiene, ya sea aplicándola a todos los elementos actuales almacenados en el canal o de forma individual cuando estos se añaden al mismo. El tipo de operaciones que se pueden realizar son de todo tipo: operaciones de filtrado, operaciones de ordenación, operaciones aritméticas (si fijamos el tipo de datos del canal), operaciones de transformación…

Unión y división de canales: es interesante hacer que un mismo canal se pueda subdividir en varios bajo una condición, o justamente lo contrario, que varios canales agrupen sus mensajes.

Otra opción que tenemos a la hora de evolucionar el diseño presentado, es la adición de un nuevo elemento, el broker. El principal propósito de este es coordinar las llamadas a servicios en arquitecturas orientadas a los mismos, además de poder validar si las peticiones cumplen con el formato esperado. Si queremos generalizar el comportamiento de este, para la situación que hemos planteado, podemos considerarlo como una fachada que elige a que canales se dirigen los mensajes. Donde en este caso, lo más probable es que los canales dispongan de una serie de acciones o filtros que adecuan el formato de los mensajes a los consumidores del canal.

Podría continuar sugiriendo más modificaciones sobre el diseño base, pero creo que ha quedado más que claro que el diseño es bastante versátil y al final todo consiste en adaptarlo a las necesidades que tengamos en cada caso.

Donde se usa?

Actualmente el diseño presentado se usa a varios niveles y cada producto/software/sistema lo implementa a su manera, pero los conceptos clave acaban siendo los mismos en todos o presentando pequeñas variaciones. A continuación se muestran algunos ejemplos:

ReactiveX: framework disponible en múltiples lenguajes de programación, que combina el patrón observer, con el patrón iterator y programación funcional. http://reactivex.io/
Apache Kafka: plataforma de streaming distribuido. https://kafka.apache.org
RabbitMQ: broker de mensajes. https://www.rabbitmq.com/
Message Passing Interface (MPI): sistema de paso de mensajes orientado a la computación paralela. https://www.open-mpi.org/

Epílogo

Gracias por leer todo este rollo que he soltado y que hago en mis ratos libres! Al final, para mi esto es una forma de aportar un poco de mis conocimientos con la finalidad de que puedan llegar a ser útiles para otros, al igual que yo he leído gran cantidad de posts publicados por gente que sabe mucho más que yo.

Se acepta cualquier sugerencia, impertinencia, improperio, comentario, etc. siempre que sea con fundamento y afán de mejorar/corregir/aumentar el contenido de este artículo.