Data Fabric vs Data Lake : la différence


Qu’est-ce qu’un lac de données ?

En termes simples et profanes, un lac de données est un référentiel de stockage situé de manière centralisée et qui contient toutes les données volumineuses provenant de plusieurs sources dans un format brut absolu. Le lac de données a la capacité de stocker des données structurées, non structurées ou même semi-structurées. Cela signifie que toutes les données peuvent être stockées dans un format flexible pour référence future. Au moment du stockage des données, le lac de données associera les données à des balises de métadonnées et à d’autres identifiants pour une récupération plus rapide.

Selon une définition fournie par le CTO de Pentaho, James Dixon, un lac de données fait référence à la manière ad hoc dont les données sont stockées dans un lac de données, contrairement aux données propres et bien traitées dans un système d’entrepôt de données traditionnel.

En règle générale, les lacs de données sont construits sur un cluster de composants matériels peu coûteux et hautement évolutifs. Par conséquent, si quelqu’un veut vider un énorme volume de données tel quel, il peut le faire via un lac de données, et cela sans avoir aucune appréhension sur la capacité de stockage. Ces clusters peuvent être hébergés soit sur le cloud, soit sur un serveur physique.

Il y a toujours confusion entre les lacs de données et les entrepôts de données en raison de certaines similitudes, cependant, il existe une nette différence entre les deux. Cependant, le lac de données offre des avantages plus importants aux organisations, qui génèrent constamment de gros volumes de données volumineuses et il y a toujours une transition de ces données sur site vers le cloud (ces dernières années).

Avantages du lac de données

D’un point de vue fonctionnel, le lac de données fonctionne sur un modèle appelé schéma en lecture. Ce que cela indique essentiellement, c’est qu’il n’y a pas de schéma prédéfini pour intégrer les données avant le stockage. Ce n’est qu’au moment de la lecture des données qu’elles sont analysées et adaptées au schéma applicable, selon les besoins. Cette fonctionnalité permet de gagner beaucoup de temps qui est généralement consacré à la définition et à la création d’un schéma. De plus, les données peuvent être stockées dans un format tel quel et dans n’importe quel format.

Lac de données sur site ou dans le cloud ?

Traditionnellement, les lacs de données sont implémentés sur site dans des serveurs physiques. Pour ce faire, le stockage est déployé sur HDFS et le traitement sur des clusters Hadoop. L’un des principaux avantages de Hadoop est son évolutivité, ses excellentes performances combinées à une solution rentable. Cela apporte également l’avantage de la localité des données. Cependant, il existe certaines contraintes dans le déploiement d’un lac de données sur site.

  1. Espacer: Les serveurs sont énormes et volumineux, et ils occupent un espace physique plus grand (parfois un étage entier), ce qui entraîne des coûts élevés.
  2. Installer: Le processus global de configuration du matériel et du centre de données prendra beaucoup de temps, parfois des semaines ou des mois.
  3. Évolutivité : S’il est nécessaire d’étendre le système, cela prendra du temps car il doit passer par le processus de mise en place de matériel supplémentaire, qui nécessite l’approbation de budgets et d’autres procédures opérationnelles.
  4. Coût: Avec toute l’utilisation des serveurs, des espaces et des centres de données, le coût global d’avoir un lac de données sur site est toujours plus élevé par rapport au modèle cloud.

Au contraire, le lac de données sur le cloud répond à tous les défis susmentionnés. Un lac de données basé sur le cloud est

  1. Facile à démarrer et peut être déployé rapidement
  2. Très rentable car vous devez payer selon votre utilisation
  3. Très facile à mettre à l’échelle en fonction de la croissance de vos besoins. Dans le cas où l’exigence diminue, vous pouvez également facilement réduire la taille.

Maintenant que nous avons compris ce qu’est un lac de données, il est également important de comprendre sa comparaison avec la fabrique de données. Au cours de cette comparaison, sur plusieurs paramètres, nous inclurons également un troisième cadre appelé entrepôts de données.

Cas d’utilisation opérationnels

Que sont les cas d’utilisation opérationnels ?

Les entreprises qui sont pilotées par de gros volumes de données sont généralement pilotées par plusieurs cas d’utilisation en temps réel qui sont nécessaires pour disposer d’une architecture de données à grande échelle à grande vitesse. Un élément important est qu’il doit prendre en charge les transactions simultanées. Certains de ces exemples sont :

  1. Une vue complète à 360 degrés des nombreux systèmes existants du client.
  2. Prédiction
  3. Notation
  4. Prévention de la fraude
  5. Opération de paiement et sa sécurité inhérente

Exigences dans les cas d’utilisation opérationnels

L’exigence des cas d’utilisation opérationnels est d’effectuer des requêtes de données complexes et à grande vitesse en quelques millisecondes. Ceci est fait dans le cas de :

  1. Données en direct, qui sont mises à jour en continu via divers systèmes opérationnels (généralement, ces mises à jour se chiffrent en millions à des milliards)
  2. La grande taille des données est généralement stockée dans plusieurs tables de structure de données, se trouvant dans un mode fragmenté et dans divers formats.
  3. Une instance clé d’une entreprise telle que l’emplacement de l’entreprise ou un produit spécifique de l’entité
  4. Le nombre élevé d’utilisateurs simultanés qui accèdent au système à un moment donné

Options de stockage pour le Big Data

Si nous regardons les équipes modernes, elles s’appuient principalement sur les options de stockage de données suivantes

  1. Lacs de données
    Un lac de données n’est rien d’autre que le stockage de diverses données, à la fois structurées et non structurées telles quelles.
  1. Entrepôt de données
    Il s’agit d’un type de mécanisme de stockage utilisé pour stocker des données provenant de systèmes opérationnels, de sources externes et d’autres magasins de données. Au lieu d’être stockées telles quelles, ici, les données sont capturées sous une forme agrégée afin que les entreprises puissent effectuer des analyses et prendre des décisions.
  1. Structure de données
    Contrairement au lac de données et à l’entrepôt de données, ici la structure de données est une couche de données qui est placée sur diverses sources de données d’une entreprise, indépendamment de la technologie, du format ou de la source du système.

Avantages et inconvénients des options de stockage

Le tableau suivant décrit les forces et les faiblesses d’un lac de données et d’une structure de données.

Lac de données Structure de données
Force:
· Prend en charge les requêtes complexes autour des données structurées et non structurées
Force:
· Prend en charge les bases de données basées sur des tables telles que SQL
· Prend en charge les requêtes complexes pour des entités uniques et avec un taux élevé de simultanéité
La faiblesse:
· Ne prend pas en charge les requêtes par une seule entité
· Ne fonctionne pas pour les données en direct provenant des systèmes opérationnels
La faiblesse:
· N’a pas de capacité intégrée ou prête à l’emploi pour exécuter des requêtes sur plusieurs micro-bases de données. Un correctif temporaire est via Elasticsearch.

Dernières pensées

Si nous regardons la comparaison ci-dessus, il est très évident que la structure de données est le choix préféré lorsqu’il s’agit de cas d’utilisation opérationnelle en temps réel. Cependant, il existe des cas occasionnels où la structure de données et le lac de données se complètent. Cela est évident dans les cas où la structure de données peut aider à la préparation de données fiables pour le lac de données, et le lac de données peut fournir une intelligence opérationnelle pour la structure de données.

Autres ressources utiles :

Hub de données – Tout ce que vous devez savoir

Data Fabric vs Data Mesh : la différence

Qu’est-ce que l’Edge Computing ? – Tout ce que tu as besoin de savoir