Lorsque l’on aborde les problèmes rencontrés par les équipes data, un des premiers défis remonté est de garantir un accès efficace aux données. En effet, sans accès aux données, impossible d’identifier les bons cas métier qui généreront de la valeur ; l’innovation est bloquée et la preuve de ROI en est affectée. Or, l'accès aux données passe par une gestion efficace des métadonnées, de la sécurité et de la gouvernance. Le Platform Engineering fournit des solutions automatisées pour rationaliser ces processus.
Dans cet article, nous mettons en avant les cas d'usage où le Platform Engineering améliore la gouvernance et la sécurité des données en nous appuyant sur les activités suivantes :
Les métadonnées sont souvent dispersées sur plusieurs systèmes, rendant difficile la cohérence et la gouvernance. Un système centralisé de gestion des métadonnées va permettre aux organisations d'automatiser la collecte des métadonnées, d'appliquer des politiques et de garantir des définitions de données standardisées. En intégrant des outils de catalogage des métadonnées, les équipes vont pouvoir créer un référentiel unifié qui facilite la découverte des données, leur gouvernance et le contrôle de leur qualité.
Les consommateurs des données (analystes, ingénieurs data) éprouvent souvent des difficultés à trouver des jeux de données pertinents, entraînant des inefficacités et des efforts redondants. Les solutions de catalogage permettent aux analystes et aux ingénieurs de rechercher, explorer et comprendre les jeux de données en temps réel. En intégrant depuis la plateforme des API et des tableaux de bord sur les catalogues de métadonnées, les utilisateurs accèdent en libre-service à des données structurées et bien documentées sans nécessiter d'intervention manuelle.
Des solutions Open source ou SaaS comme Apache Atlas, DataHubProject, Zeenea et Amundsen assurent à la fois le suivi des métadonnées et une recherche intuitive, garantissant ainsi que les données sont cohérentes, facilement accessibles et bien gouvernées.
Les modifications imprévues des schémas des sources d’informations ou des pipelines d’ingestion et de traitement peuvent perturber les processus en aval, entraînant des incohérences de données. L'analyse d'impact des changements va permettre aux équipes de suivre les dépendances et de prévoir l'impact des modifications avant leur déploiement. Grâce au suivi du lignage des données, les organisations peuvent visualiser le flux de données et notifier automatiquement les utilisateurs concernés lorsqu'un changement est détecté. De plus, des mécanismes de notification automatisés peuvent alerter les consommateurs en aval, les aidant ainsi à ajuster leurs flux de travail de manière proactive.
Des technologies comme OpenLineage et Apache Atlas permettent aux équipes de cartographier les dépendances des données et d'anticiper les perturbations potentielles, garantissant ainsi la continuité des activités et la conformité aux réglementations.
La gestion des PII est un aspect critique de la gouvernance des données. Les organisations doivent identifier, étiqueter et protéger les données sensibles afin de se conformer à la réglementation RGPD. La plateforme peut automatiser l'exécution des outils de détection des PII, garantissant une analyse continue et cohérente des jeux de données. Ces outils vont inspecter les données structurées et non structurées pour classifier les champs sensibles, réduisant ainsi le risque d'exposition.
Des produit Open source ou service cloud comme Presidio, Google DLP et AWS Macie assurent que les données sensibles sont correctement identifiées et classifiées, permettant dans un second temps d'appliquer des contrôles d'accès granulaires et des politiques de conformité. Un exemple de conformité est la suppression au bout d’un certain temps des données personnelles inutilisées.
Autre exemple de conformité : le masquage automatique. Combiné à des contrôles d'accès basés sur les rôles (RBAC), le masquage via chiffrement va garantir que les utilisateurs peuvent accéder aux données pertinentes sans compromettre la confidentialité des éléments sensibles. Pour aller plus loin, l'anonymisation des informations autorisera des jeux de données de tests réalistes, voire un partage ou une exposition en toute sécurité.
Les moteurs de bases de données sont généralement capables de gérer le chiffrement au niveau de colonnes et l'anonymisation au travers d’extensions. Pour de très gros volumes de données en stockage objet ou data warehouse, des solutions telles que Google DLP ou Tonic.ai offrent un chiffrement au niveau des champs et la génération de données synthétiques, permettant aux équipes de travailler avec des données anonymisées tout en conservant leur valeur analytique. Cette approche renforce la sécurité des données et minimise les risques liés à un accès non autorisé.
Gérer manuellement les autorisations à grande échelle augmente les risques de sécurité et la charge administrative. Le contrôle d'accès automatisé va viser à simplifier l'application des règles de sécurité en appliquant dynamiquement des règles d'accès basées sur les rôles des utilisateurs, les attributs et les exigences de conformité.
En utilisant HashiCorp Vault, les organisations peuvent stocker et gérer en toute sécurité les identifiants d'accès, garantissant que seuls les utilisateurs autorisés peuvent récupérer et utiliser les jeux de données sensibles.
En mettant en œuvre des politiques d'accès automatisées, les entreprises renforcent leur posture de sécurité tout en maintenant l'efficacité opérationnelle.
Les activités mentionnées ici ne sont pas nouvelles pour les équipes data. Par contre, l’orientation de s’appuyer sur une démarche Platform Engineering pour viser à automatiser un certain nombre de capacités de la plateforme à savoir: la gestion des métadonnées, du suivi de lignage des données, de la détection des PII et des contrôles d'accès est nouvelle.
Pensés comme des fonctionnalités pour des personas spécifiques, ces points sont des pré-requis pour permettre un accès en libre-service aux données par les personnes qui en ont besoin tout en assurant une gouvernance à grande échelle. Cet accès aux données, en toute confiance, est le premier attendu pour espérer un ROI sur d’une équipe data.