Nous sommes bien dans l'ère du Big data. C'est une réalité dans laquelle nous baignons tous, sans exception. L'explosion du nombre de données numériques oblige les experts à voir le monde autrement et trouver de nouvelles façons de les récolter, analyser, stocker et partager. 

 

Un peu d'histoire…

 

Selon les archives de l'Association for Computing Machinery (ACM), le terme de Big Data est apparu pour la première fois en 1997, il y a donc 26 ans. Les géants du Web - Facebook, Yahoo, Google- ont été les premiers à développer cette technologie.

Certains parlent de nouvelle révolution industrielle comme l'a été l'invention de la machine à vapeur au début du 19ème Siècle ou de l'électricité à la fin du 19ème, d'autres disent que c'est la troisième étape de la troisième révolution industrielle, qui est plus précisément la révolution informationnelle. Quoi qu'il en soit, l'arrivée des Big Data implique un profond bouleversement de la société.

 

Les Big Data, c'est quoi exactement?

Définition de la Big Data

Les big data ou mégadonnées sont toutes les données de toutes les entreprises et désignent une telle masse d'informations qu'aucun outil classique de base de données ne peut gérer. Nous produisons plusieurs trillions d'octets par jour ! Ce sont donc de vastes ensembles de données récoltées par les entreprises qui peuvent ensuite être récoltées, exploitées et utilisées dans des projets de machine learning. (sorte d'intelligence artificielle qui crée des systèmes qui améliorent leur résultats en fonction des données qu'ils traitent)

Les 3V sont en général associés au big data : 

  • volume de données massif
  • variété des informations provenant de diverses sources
  • vélocité avec laquelle elles sont générées, collectées et traitées. L'exemple le plus parlant est un message posté qui peut devenir viral en quelques heures.

Avec le temps et le développement des big Data, d'autres V sont venus s'ajouter : 

  • véracité : les chercheurs travaillent ardemment sur ce point qui concerne la fiabilité et la crédibilité des données.
  • valeur

Différents types de données traitées par le Big Data

Les données stockées, analysées, ont des structurations différentes : 

  • données structurées : elles peuvent être stockées et analysées dans un format fixe et bien défini. Elles sont en tel grand nombre que le défi est alors de gérer leur volume
  • données semi structurées : ces données peuvent être très clairement définies en termes de format mais ne sont pas structurées dans une base de données.
  • données non structurées : le format et la structure sont inconnus et les exploiter est un grand défi.

Les deux derniers types de données doivent être préparées et transformées grâce à des outils de data mining.( forage, exploration, fouille de données)

Les sources des big data

Les données de masse proviennent essentiellement  : 

  • des appareils connectés : téléphone, tablettes, ordinateurs
  • des objets intelligents connectés
  • des systèmes de transactions
  • des base de données clients
  • des données démographiques, données climatiques
  • des enregistrements médicaux
  • de l'activité des internautes : Facebook par exemple génère 500 térabytes de données nouvelles par jour ! 

Bref, vous l'aurez compris, les données foisonnent de toute part et avec l'augmentation des utilisateurs, elles augmentent de façon fulgurante.

Les utilisations de la Big Data?

Tous les secteurs se mettent progressivement à utiliser ces données massives car elles permettent une meilleure compréhension des marchés, des comportements des utilisateurs, de l'environnement professionnel. 

Voici quelques exemples d'utilisations des ces mégadonnées : 

  • campagne marketing personnalisées basées sur les goûts des consommateurs
  • analyses des besoins et des attentes des consommateurs
  • la recherche médicale : 
    • identification de risques de maladies
    • réaliser des diagnostics plus fiables et précis
    • repérer des risques d'éventuelles épidémies
  • l'industrie de l'énergie : 
    • repérer des nouvelles zones de forages
    • surveiller le réseau électrique
  • le secteur du transport
    • optimisation des itinéraires
  • le secteur financier : 
    • analyse des risques et analyse des marchés

Le traitement des big datas

Le traitement de ces données en nombre requiert des infrastructures informatiques particulières. Pour que le traitement soit rapide, on peut utiliser des milliers de serveurs qui doivent collaborer au sein d'une architecture de grappe, souvent basée sur des technologies dédiées comme Hadoop ou Apache spark.

Les coûts sont excessifs, c'est pourquoi beaucoup se tournent vers le cloud public. Voilà la raison pour laquelle l'essor du cloud computing accompagne celui du big data.

Les technologies nouvelles qui se cachent derrière le Big Data

  • les technologies de stockage avec notamment le cloud computing.
  • les technologies de traitement ajusté et de calcul : Hadoop pour le traitement des données non structurées et MapReduce remplacé progressivement par Spark pour le mode de calcul à haute performance.  Il existe des solutions pour optimiser le temps de traitement sur des données géantes : 
    • base de données NoSQL (comme MongoBD, Cassandra, Redis) plus performante que le traditionnel SQL pour l'analyse des données en masse.
    • traitement massivement parallèle : Framework Hadoop qui combine le système de fichiers distribué HDFS, la base NOSQL HBase et l'algorithme MapReduce.

Nous sommes donc dans une nouvelle ère avec une nouvelle façon de fonctionner. C'est un nouvel eldorado pour le marché mondial qui se compte déjà en milliards de Dollars. Ces nouvelles technologies n'en sont qu'au début avec des améliorations continues, des nouvelles utilisations apparaîtront aussi que l'on ne soupçonne pas encore aujourd'hui.

Un encadrement très strict a été mise en place pour toutes ces données.