Big Data : par où commencer ?
Sujet devenu incontournable, le Big data est mis en lumière comme levier de croissance économique et de compétitivité des organisations. Face à la complexité et aux différents enjeux inhérents, le terrain de l’expérimentation est plébiscité pour montrer, preuves à l’appui, les intérêts et les bénéfices pour les organisations.
Identifier les données à forte valeur ajoutée
La première phase vise à réaliser un audit des données disponibles ou potentiellement disponibles : source(s), caractéristique(s), format, etc. En fonction de la maturité et de la disponibilité immédiate des données, certaines d’entre elles seront sélectionnées afin de débuter une analyse approfondie. L’objectif consiste à anticiper les phases de collecte, stockage puis traitement des données.
Il est nécessaire de commencer par un périmètre de données resserré mais suffisamment important pour prouver la valeur du Big Data au reste de l’organisation.
Déterminer les cas d’utilisations et les analyses souhaitées
Un jeu de données ayant été constitué, il est maintenant possible d’identifier les usages et les cas d’utilisations à exploiter.
Il est important de cibler les usages rapides à mettre en place : valeur ajoutée business et/ou clients et contraintes technologiques sont les deux principaux facteurs qui permettent de prioriser les différents cas d’usages à exploiter.
Les usages doivent être pensés intelligemment afin d’assurer un passage à l’échelle rapide. Améliorer la connaissance client fait partie des cas d’utilisations les plus développés dans les POC Big Data.
Travailler en complémentarité une infrastructure dédiée et les compétences analytiques
Côté infrastructure et outils, l’outil le plus utilisé aujourd’hui est Hadoop. Framework open-source, Hadoop fournit un environnement complet pour répondre aux différents besoins techniques : collecte, stockage et traitement de vos données (i.e machine-learning, data-mining, etc.) ainsi que la planification des tâches et l’organisation des traitements parallèles sur vos différents serveurs (dans le Cloud ou On-premise). Ensemble, les composants Hadoop créent une puissante plateforme pour traiter et analyser vos données.
Une fois la plateforme technologique mise en place, reste à adresser le sujet complexe des compétences requises pour l’exploitation des données. Si votre organisation ne dispose pas des profils compétents, il est recommandé de s’appuyer sur des expertises externes pour réunir :
- Data-scientist (exploitation des données via des techniques mathématiques et statistiques)
- Data-analyst (utilisation et interprétation des résultats en lien avec les besoins métiers)
- Data-architect (garant de l’utilisation, du stockage et du traitement technique des données via le choix d’une infrastructure fonctionnelle et technique adéquate).
La réussite du POC tient au pragmatisme et au réalisme de la démarche
Le Big Data est une démarche de travail pragmatique. Ce sont la capacité à répondre à des enjeux réels (business, client…) et le développement d’usages à forte valeur ajoutée qui concrétisent et valident le potentiel du Big Data au travers du POC. Preuves à l’appui, vous pourrez diffuser les intérêts et les bénéfices du Big Data au sein de votre organisation et rechercher un sponsor métier pour un passage à l’échelle rapide. Synonyme de relai de croissance pour votre activité, le Big Data se matérialisera comme l’un des axes majeurs de votre transformation digitale.