Pour cette année 2014, un de mes objectifs était de présenter les technologies utilisées par Dictanova. Il s’agissait à la fois d’un objectif personnel et professionnel : sortir de sa zone de confort mais aussi échanger avec la communauté Java. Ainsi, lors de ma dernière intervention du 15 décembre au Nantes Java User Group, je proposais un retour d’expérience sur notre usage du Big Data.

La formule était plutôt sympa - enfin j’espère - car il s’agissait d’une co-présentation avec David Morin (de Cityzen Data). Vous pouvez retrouver le support de ma présentation.

Soirée #bigdata au @nantesjug, c’est parti !

Pour rappel, le pitch était le suivant :

Il y a 2 ans, la mode était de faire du _Big Data_, désormais il faut faire du _Smart Data_… Mais concrètement, à quoi est-ce que cela peut bien servir ?

A travers les expériences de deux entreprises, **Dictanova** (Damien Raude-Morvan) et de **Cityzen Data** (David Morin), nous essayerons de vous présenter des exemples concrets d’utilisations du Big Data et répondre par exemple aux questions suivantes :

* Quelle infrastructure mettre en place pour gérer de gros volumes de données ? Quels sont les écueils à éviter ? Les offres de type XaaS sont-elles pertinentes ?
* Comment passer du simple “hello world” en Map/Reduce à un véritable traitement métier ? Comme modéliser un enchaînement de jobs avec Oozie ? Comme obtenir des primitives de plus haut niveau que Map/Reduce ? Cascading, Spark, Tez ?
* Une fois les données stockées, comment effectuer de l’analyse sur ces dernières ? Comment utiliser des langages de requêtage comme Pig ?
* Comment gérer le changement dans son modèle de données ? Modèle de données avec Avro ? Avec Parquet ou encore Thrift ?
* Comment assurer la supervision de jobs en production sur un cluster Hadoop ?

Comments