top of page

Le Big Data

Le phénomène Big Data

L’explosion quantitative des données numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation des données. Ainsi est né le « Big Data ».


Il s’agit d’un concept permettant de stocker un nombre indicible d’informations sur une base numérique. Selon les archives de la bibliothèque numérique de l’Association for Computing Machinery (ACM), cette appellation serait apparue en octobre 1997.

Le Big Data, c'est quoi?

Littéralement, ces termes signifient méga données, grosses données ou encore données massives.

Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.


En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours.

Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie.

Le big data ne dérive pas des règles de toutes les technologies, il est aussi un système technique dual. En effet, il apporte des bénéfices mais peut également générer des inconvénients.

L’arrivée du Big Data est maintenant présentée par de nombreux articles comme une nouvelle révolution industrielle semblable à la découverte de la vapeur (début du 19e siècle), de l’électricité (fin du 19e siècle) et de l’informatique (fin du 20e siècle). D’autres, un peu plus mesurés, qualifient ce phénomène comme étant la dernière étape de la troisième révolution industrielle, laquelle  est en fait celle de « l’information ». Dans tous les cas, le Big Data est considéré comme une source de bouleversement profond de la société.

Big Data : l’analyse de données en masse

Inventé par les géants du web, le Big Data se présente comme une solution dessinée pour permettre à tout le monde d’accéder en temps réel à des bases de données géantes. Il vise à proposer un choix aux solutions classiques de bases de données et d’analyse (plate-forme de Business Intelligence en serveur SQL…).

Selon le Gartner, ce concept regroupe une famille d’outils qui répondent à une triple problématique dite règle des 3V. Il s’agit notamment d’un Volume de données considérable à traiter, une grande Variété d’informations (venant de diverses sources, non-structurées, organisées, Open…), et un certain niveau de Vélocité à atteindre, autrement dit de fréquence de création, collecte et partage de ces données.

Une évolution nécessaire des infrastructures

Cette nouvelle manière de traiter et stocker des volumes inédits de données remet en cause les pratiques traditionnelles. Les datawarehouses mis en place par les entreprises dans les années 90 ont toutes les peines du monde à répondre à leurs nouveaux besoins analytiques : de plus en plus sollicités, ils n’arrivent plus à fournir les performances nécessaires au stockage et au traitement de données de plus en plus nombreuses.

Cet accroissement des volumes de données requiert une extension des frontières des infrastructures physiques, avec en corollaire une augmentation de leur consommation énergétique et de leurs capacités de refroidissement ; ainsi que des besoins croissants en termes de continuité de service, de sécurité et de sauvegarde. Cette évolution s’accompagne d’un contexte réglementaire de plus en plus strict, ce qui ajoute un niveau supplémentaire de complexité.

 

Parallèlement, en termes techniques, le réseau par lequel transitent toutes ces données est également sur-sollicité, les temps de latence s’allongent et la qualité de service diminue.
Au final, une nouvelle infrastructure est nécessaire pour répondre à tous ces défis, mais les délais liés à sa conception, son développement, son déploiement et sa mise en œuvre sont tels que l’entreprise court le risque de mettre en place une infrastructure déjà obsolète…

De nombreuses entreprises ont vu dans le Cloud Computing une réponse efficace à ces défis. C’est le phénomène de la « gravité des données » où le centre de gravité des données bascule des systèmes informatiques d’entreprise vers les infrastructures en mode cloud. Mais pour des raisons de performances et d’administration du système d’information, elles se rendent compte aujourd’hui qu’elles ne peuvent résoudre toutes les problématiques par une migration totale vers le Cloud.

Le nouveau Graal des data centers : la proximité

Aujourd’hui, les opérateurs internationaux de data centers offrent une alternative qui mêle le meilleur des deux mondes : évolutivité, résilience, sécurité et performances.
Avec un maillage mondial favorisant la proximité avec le client et l’ensemble de ses filiales, ils proposent des plates-formes entièrement dédiées au traitement des big data qui suppriment les goulets d’étranglement. A la pointe des technologies, ils offrent des infrastructures à l’état de l’art, une connectivité ultra-rapide avec les points d’interconnexion Internet et les services de Cloud, ainsi qu’un écosystème complet de partenaires proposant un large éventail d’outils et de solutions d’analyse afin d’exploiter les big data ; le tout pour un coût maîtrisable et prévisible, et des délais de déploiement accélérés.

La proximité est aujourd’hui l’un des points cruciaux mis en avant par les opérateurs.
Parce que les architectures de données actuelles évoluent sans cesse, il est essentiel de traiter les données sur place – certaines actions ne pouvant pas être effectuées de façon rentable sur site. Dans un futur proche, l’infrastructure informatique va devenir un système hybride composé de systèmes hérités internes et de fonctionnalités externalisées, qui doivent fonctionner ensemble grâce à un niveau d’intégration adapté. Des sociétés, comme Facebook, l’ont bien compris : leurs services reposent désormais sur des plates-formes spécifiques, développées par des opérateurs de data center, qui leur permettent de tirer toute la valeur de leurs big data. Avec des données qui ne cessent de croître en volume, rapidité et diversité, l’immobilisme n’est plus une option.

Les évolutions technologiques derrière le Big Data 

Les créations technologiques qui ont facilité la venue et la croissance du Big Data peuvent globalement être catégorisées en deux familles : d’une part, les technologies de stockage, portées particulièrement par le déploiement du Cloud Computing. Le cloud computing, ou l'informatique en nuage, est l'exploitation de la puissance de calcul ou de stockage de serveurs informatiques distants par l'intermédiaire d'un réseau, généralement internet.

D’autre part, l’arrivée de technologies de traitement ajustées, spécialement le développement de nouvelles bases de données adaptées aux données non-structurées (Hadoop) et la mise au point de modes de calcul à haute performance (MapReduce).
 

Il existe plusieurs solutions qui peuvent entrer en jeu pour optimiser les temps de traitement sur des bases de données géantes à savoir les bases de données NoSQL (comme MongoDB, Cassandra ou Redis), les infrastructures du serveur pour la distribution des traitements sur les nœuds et le stockage des données en mémoire :
 

  • La première solution permet d’implémenter les systèmes de stockage considérés comme plus performants que le traditionnel SQL pour l’analyse de données en masse (orienté clé/valeur, document, colonne ou graphe).

  • La deuxième est aussi appelée le traitement massivement parallèle. Le Framework Hadoop en est un exemple. Celui-ci combine le système de fichiers distribué HDFS, la base NoSQL HBase et l’algorithme MapReduce. 

  • Quant à la dernière solution, elle accélère le temps de traitement des requêtes.

Evolution du Big Data : le développement de Spark et la fin de MapReduce

Chaque technologie, appartenant au système mégadonnée, a son utilité, ses atouts et ses inconvénients. Etant un milieu en perpétuelle évolution, le Big Data cherche toujours à optimiser les performances des outils. Ainsi, son paysage technologique bouge très vite, et de nouvelles solutions naissent très fréquemment, avec pour but d’optimiser encore plus les technologies existantes. Pour illustrer cette évolution, MapReduce et Spark représentent des exemples très concrets.

Décrit par Google en 2004, MapReduce est un pattern implémenté ultérieurement dans le projet Nutch de Yahoo, qui deviendra le projet Apache Hadoop en 2008.

 

Cet algorithme dispose d’une grande capacité en matière de stockage de données. Le seul hic est qu’il est un peu lent. Cette lenteur est notamment visible sur des volumes modestes. 

Malgré cela, les solutions, souhaitant proposer des traitements quasi-instantanés sur ces volumes, commencent à délaisser MapReduce. En 2014, Google a donc annoncé qu’il sera succédé par une solution SaaS dénommée Google Cloud Dataflow.

Spark est aussi une solution emblématique permettant d’écrire simplement des applications distribuées et proposant des bibliothèques de traitement classique. Entre-temps, avec une performance remarquable, il peut travailler sur des données sur disque ou des données chargées en RAM.

Certes, il est plus jeune mais il dispose d’une communauté énorme. C’est aussi un des projets Apache ayant une vitesse de développement rapide. En somme, c’est une solution qui s’avère être le successeur de MapReduce, d’autant qu’il a l’avantage de fusionner une grande partie des outils nécessaires dans un cluster Hadoop (Framework libre et open source écrit en Java destiné à faciliter la création d'applications distribuées (au niveau du stockage des données et de leur traitement) et échelonnables (scalables) permettant aux applications de travailler avec des milliers de nœuds et des pétaoctets de données.)

Les principaux acteurs du marché

La filière Big Data en  a attiré plusieurs. Ces derniers se sont positionnés rapidement dans divers secteurs. Dans le secteur IT, on retrouve les fournisseurs historiques de solutions IT comme Oracle, HP, SAP ou encore IBM. Il y a aussi les acteurs du Web dont Google, Facebook, ou Twitter.
Quant aux spécialistes des solutions Data et Big Data, on peut citer MapR, Teradata, EMC ou Hortonworks. CapGemini, Sopra, Accenture ou Atos sont des intégrateurs, toujours des acteurs principaux dans les méga données.
Dans le secteur de l’analytique, comme éditeurs de Business Intelligence (BI), on peut citer SAS, Micro-strategy et Qliktech. Cette filière comporte aussi des fournisseurs spécialisés dans l’analytique comme Datameer ou Zettaset. En parallèle à ces principaux participants, de nombreuses PME spécialisées dans le Big Data sont apparues, sur toute la chaîne de valeur du secteur. En France, les pionniers ont été Hurence et Dataiku pour les équipements et logiciels de Big Data ; Criteo, Squid, Captain Dash et Tiny Clues pour l’analyse de données et Ysance pour le conseil.

Désormais, des grandes écoles proposent des formations dans le Big Data. La pédagogie veut accorder une large part à des études de cas et retours d’expérience. Elle met aussi en exergue les « fils rouges ». Il s’agit de projets de mise en situation professionnelle que certaines grandes entreprises telles que EDF ou encore Capgemini proposent.

Big Data : des innovations disruptives qui changent la donne

Le Big Data et les analytics sont utilisés dans presque tous les domaines. Ils se sont même construit une place importante dans la société. Ils se traduisent sous plusieurs formes à ne citer que l’usage de statistiques dans le sport de haut niveau, le programme de surveillance PRISM de la NSA*, la médecine analytique ou encore les algorithmes de recommandation d’Amazon.

En entreprise particulièrement, l’usage d’outils Big Data & Analytics répond généralement à plusieurs objectifs comme l’amélioration de l’expérience client, l’optimisation des processus et de la performance opérationnelle, le renforcement ou diversification du business model.

De nouvelles opportunités significatives de différenciation concurrentielle sont générées par l’ère de la gestion d’importants volumes de données et de leur analyse. Pour les organisations, plusieurs raisons peuvent les inciter à se tourner vers cette nouvelle administration de données à savoir la gestion rentable des données, l’optimisation du stockage d’informations, la possibilité de faire des analyses programmables ou encore la facilité de la manipulation des données.

Article recommandé

Sources

Compte rendu

© 2016 par Jean-Baptiste Celestin

bottom of page