Comment définir une démarche et mettre en place une gouvernance des données ?
Qu’entend-on par gouvernance des données et quelle est son utilité ?
Plus de 90% des entreprises ont adopté une démarche data ou considère qu’une telle démarche est essentielle à leur croissance. Les principales initiatives mises en place lors de ces démarches visent à définir une organisation et des équipes de data science / analyse engineer…, écrire une charte de gouvernance, construire un datalake, réaliser des transformations digitales, produire des indicateurs de performance et automatiser les processus.
Mais sur ces 90%, seulement 24% des entreprises considèrent être pilotées par la data. Les principaux écueils rencontrés sont :
- le délai de mise en œuvre et un retour sur investissement long des solutions data,
- un sous-emploi des data scientists,
- un faible pourcentage (moins de 10%) des employés en mesure de proposer, produire et interpréter les analyses de données (versus 25% dans les entreprises les plus matures et 50% dans les entreprises en pointe).
Sur la base de ces constats, la gouvernance des données poursuit 2 grands objectifs :
- La mise à disposition et le partage de données de qualité et contextualisées. Cet objectif repose sur une organisation, des processus et des règles… mais aussi sur des outils.
- La définition d’une organisation dans laquelle les équipes de data science / engineer… sont vouées à la réalisation des solutions complexes et à plus forte valeur ajoutée, et la grande majorité des employés utilisent et développent des solutions analytiques à des fins de performance opérationnelle.
Par le biais de ces 2 objectifs, nous distinguons donc la gouvernance de la qualité / disponibilité de la donnée de la gouvernance de l’utilisation de la donnée.
Si la Data est donc aujourd’hui un enjeu pour une très large majorité d’entreprise, nombre d’entre elles se pose la question de comment entreprendre une démarche data, définir une stratégie et une gouvernance des données. En effet, l’absence de gouvernance des données allonge les délais et limite considérablement les entreprises à surmonter les difficultés rencontrées : accès aux données (données silotées), définition et contexte non partagé, qualité, sécurité, format inexploitable…
Les freins peuvent aussi être liés à des compétences et expertises ou une culture data insuffisante ou à l’utilisation d’outils inadaptés ne permettant pas une valorisation du patrimoine des données.
Comment démarrer/relancer une démarche data et initialiser une gouvernance des données ?
Il est important au démarrage du projet de bien expliciter l’ambition data, le sens du projet et la démarche générale, en mobilisant les directions métiers avec un sponsoring de la direction générale. Cette démarche se doit d’être progressive et pilotée par des usages métiers dans une logique data-driven avec le recensement de cas d’usage, la sélection et l’instruction de Pilote.
L’identification des cas d’usage nécessitera, au préalable, d’acculturer les parties prenantes (les producteurs et les consommateurs de la donnée) à la donnée (structurée, non structurée), son cycle de vie mais aussi ce que recouvre un cas d’usage ou la donnée est clé. La sensibilisation vise aussi à aider les acteurs métier à se projeter et à identifier des opportunités autour de la donnée.
Pour cela, il sera nécessaire de prévoir des formations dites de sensibilisation ou d’organiser des ateliers pédagogiques autour de la donnée. Pour créer de l’engagement et faire remonter des idées du terrain, des ateliers d’ideation type Hackaton pourront également être organisés.
Le recensement de cas d’usage et le choix des Pilotes
Le recensement des cas d’usage (finance, RH, production, etc…), sera également réalisé, sous forme d’ateliers de travail, avec les acteurs dépositaires de ce cas d’usage (process métier). Ces acteurs seront nommés par leur direction métier d’appartenance et sensibilisés comme nous l’avons vu précédemment à la démarche et à la culture data.
Le recensement des cas d’usage est important car ce travail doit également permettre d’identifier les types de données et les problématiques qui se posent à l’échelle de l’entreprise et ses conséquences. Il convient ensuite de mener une priorisation en vue de sélectionner des Pilotes à partir de critères autour de la valeur de la donnée pour le processus métier et de l’étendue de son utilisation afin d’avoir des Pilotes représentatifs qui permettront d’exploiter au mieux les enseignements issus de leur analyse.
- La première phase visera à instruire les Pilotes avec les responsables métiers pour en tirer des enseignements et des recommandations caractères généraux sur l’organisation, les processet l’architecture du SI d’entreprise à mettre en place. Cette phase permettre également de constituer le glossaire / dictionnaire de donnée et la gouvernance associée
- Le seconde phase aura pour objet de confirmer les enseignements à caractère généraux en analysant les autres cas d’usage recensés
1ère étape : Travailler sur des Pilotes représentatifs pour en définir des enseignements et des recommandations à portée générale
Il ne faut pas perdre de vue que la finalité est d’analyser les problèmes liés aux données, notamment les Golden Data, au regard d’objectifs visant à améliorer l’accès, la qualité, l’exploitation des données etc…
Pour cela il est nécessaire de bien structurer le processus de collecte des informations auprès des parties prenantes sous 3 angles : processus, données, architecture et IT afin :
- d’analyser le processus existant et d’identifier les problématiques rencontrés
- d’identifier les flux d’information circulant aux différentes étapes, caractériser les données, comprendre le cycle de vie de la donnée (identifier les acteurs impliqués dans la création, mise à jour, vérification et exploitation des données).
- recenser les applicatifs supportant les processus et gérant les données
Quels enseignements peut-on tirer d’une instruction sur des Pilotes ?
Généralement, en l’absence de gouvernance des données, on observe une insatisfaction des responsables métiers en raison de processus peu efficients. La lourdeur du process est souvent le résultat d’une difficulté à accéder à la donnée, à la partager ou à la vérifier.
Parmi nos observations sur des Pilotes réalisés, citons :
- Sur un processus métier RH – l’onboarding des collaborateurs – ou le nom-prénom était ressaisi à 22 reprises par les différentes parties prenantes
- Sur un processus métier visant à réaliser des études d’impact environnemental à partir de données sur l’eau et l’air, les temps d’accès et de contrôles étaient quadruplés du fait d’une difficulté à identifier les sources de données, et de l’absence d’outils de collecte et vérification automatisée.
Les principaux risques qui en résultaient étaient : un SI morcelé avec des données circulant difficilement avec des ruptures dans les flux de données, une perte de temps des acteurs ayant besoin de ces données, une qualité des données qui diminue au fur et à mesure de leur cycle de vie.
Nos retours d’expérience sur des démarches réalisés à partir de Pilotes nous amène à poser des règles et des principes autour des Golden Data ou données de référence (donnée client, RH etc…) qu’il faut identifier et traiter avec un soin particulier. Dès lors qu’une donnée est considérée comme une golden data, cette donnée doit nécessairement faire l’objet :
- d’un dictionnaire de données pour la définir, la caractériser (définition, règles de gestion etc…) et identifier les référents métiers à qui s’adresser pour avoir des informations. Pour soutenir cet effort, des outils de gouvernance de la donnée, avec des fonctionnalités de dictionnaire et de linéage des données pourront être recommandés.
- d’une gouvernance métier formelle en attribuant ou formalisant les rôles et responsabilités autour de la donnée (qu’elle soit structurée ou non) tout au long de son cycle de vie : celui qui est responsable de la définition et du contenu de la donnée, celui qui est en charge de monitorer la qualité des données, celui qui est en charge de l’exploiter etc….
Des règles et principes doivent être posés pour :
- Proscrire la ressaisie de données brutes ou de base ou les tâches réalisées en doublons comme le contrôle d’une donnée dans plusieurs bases ou applications
- Encadrer les actions autour de la donnée tout au long de son cycle de vie en mettant en place la ségrégation des tâches, le principe étant qu’une seule et unique personne ne peut pas initier, contrôler et valider une même tâche.
- Améliorer la gestion des données avec l’utilisation systématique de métadonnées pour faciliter et optimiser la recherche de données en libre-service avec des solutions moteur de recherche. Ce sont également ces métadonnées qui apportent les éléments de contexte essentiels à tout consommateur pour savoir si la donnée disponible peut être utilisée dans son propre contexte.
La gouvernance des données va également nécessiter de réfléchir aux outils à déployer pour :
- Faciliter le stockage des données ;
- Gérer les ruptures entre les applicatifs métiers/SI par des API ou une plateforme EAI gérant les flux entre applications ;
- Automatiser les process de collecte et d’exploitation des données via des solutions de data platform qui permettent d’améliorer la traçabilité des données ou des solutions de DataViz pour améliorer le partage et les restitutions ;
- Gérer et monitorer la qualité (intégrité, complétude, etc…) des données
2ème étape : Conforter ces enseignements et ces recommandations à portée générale en analysant les autres cas d’usage recensés
Cette étape permettra d’avoir une vue d’ensemble des besoins sur les données et contribuera à définir le niveau d’effort et d’investissement en termes d’organisation ou d’architecture du SI.
L’organisation autour des données doit en effet distinguer 2 niveaux : un premier niveau transverse, qui est en charge d’animer la gouvernance, de porter la vision stratégique des besoins métiers d’une entreprise (gouvernance centralisée) ou d’une business unit (gouvernance décentralisée) et de transmettre les lignes directrices aux acteurs en charge de la gestion des données métiers de référence ou golden data.
Cette organisation transverse pourra s’appuyer sur un comité de coordination regroupant les responsables données de business units ou sur un Data Manager. C’est cette organisation qui sera en charge d’étudier et de piloter le déploiement de nouveaux cas d’usages autour de la donnée.
Au 2ème niveau, on retrouvera une organisation propre à chaque Golden Data ou à chaque donnée de référence (donnée Finance, RH, Client, industrie, etc…) avec pour chaque Golden Data des acteurs en charge de fixer les règles, définir les règles d’utilisation (Data Officer), des responsables du contenu et de la qualité des données (data owner), des acteurs en charge de monitorer la qualité des données (data steward), d’accompagner les métiers sur l’analyse des données et le reporting (data analyst).
L’analyse des besoins sur l’ensemble des cas d’usage va également être nécessaire pour avoir une réflexion d’ensemble sur l’architecture devant porter la donnée et permettre d’engager une réflexion sur les outils à mettre en place :
- DataLake pour enregistrer et stocker toutes les données brutes que ce soient des données structurées ou non structurées et être utilisées, le cas échéant, à des fins d’analyse
- Master Data Management pour organiser l’ensemble de la gestion des données de référence en fonction des Golden Data à gérer,
- Gouvernance des données pour cartographier les données, définir / caractériser les données, assurer le linéage des données,
- EAI (Entreprise Integration Application) pour gérer les flux inter-applicatifs.
- Data Platform : pour gérer l’analyse et le traitement de données et éviter l’utilisation de l’excel
La 3ème étape va consister à inscrire cette démarche dans la durée, pour améliorer la gouvernance et ses différentes composantes au travers de :
- la poursuite du déploiement des cas d’usage ;
- l’identification et le recensement de nouveaux cas d’usages ;
- l’acculturation
L’acculturation et la sensibilisation de l’ensemble des acteurs à la data sont en effet une composante clé de cette démarche pour toute entreprise souhaitant être « data driven ». Si dans la première étape de la démarche, l’objectif était de communiquer et de donner du sens, les étapes suivantes vont consister à former chaque collaborateur, quelque-soit son métier et d’identifier des relais en charge de promouvoir l’intérêt de la donnée.
Car, aujourd’hui, la data est réservée à quelques happy few (les équipes data) tandis que la très grande majorité des équipes fonctionnelles est face à des montagnes de données avec le simple tableur Excel. Pour y remédier, nous préconisons :
- La mise en place de Centres d’Excellence (COE), services dédiées à l’acculturation, la formation et l’accompagnement des utilisateurs fonctionnels dans leur exploitation de la donnée,
- Le déploiement de plateformes data user friendly qui permettent une exploitation de la donnée par le plus grand nombre, sans avoir à connaitre Python ou à avoir un PhD en data science.
Ces préconisations nécessitent un fort sponsorship des directions générales et un rééquilibrage des investissements. Après avoir passé des années à investir sur des projets data porteurs de fortes valeurs ajoutées, il est nécessaire d’activer le levier de l’effet volume et de valoriser la data au niveau de chaque salarié, en les dotant de bonnes pratiques et d’outils adéquats facilitant et automatisant leurs analyses. C’est d’ailleurs la démarche adoptée par une grande banque française qui a décidé d’équiper chacun de ces collaborateurs en charge du réglementaire d’un outil data qui remplace et automatise les processus effectués jusqu’alors sur Excel.