Data (données) : quelques définitions utiles

Découvrez quelques définitions autour de la data

Aujourd’hui nous vous proposons un article un peu particulier, qui s’articule autour de la data (donnée). Vous retrouverez des mots clés et de références sémantiques liés à ce concept clé. Vous souhaitez en savoir plus sur les data et les données en général ? Cliquez ici pour retrouver le guide créé par LeMagIT.


BI (informatique décisionnelle)

La BI (Business Intelligence) est aussi appelée informatique décisionnelle. C’est le processus technologique qui analyse les data afin de fournir des informations pertinentes. Ensuite, ces informations sont présentées à l’équipe dirigeante d’une entreprise, aux commerciaux mais aussi aux autres utilisateurs. Ainsi, elles peuvent les guider dans leurs décisions.
L’informatique décisionnelle (ou BI) est un concept très large. En effet, cela regroupe les outils, applications et méthodologies permettant aux entreprises de récolter les data. Ces data sont collectées depuis des systèmes internes mais aussi de sources externes. Elles sont ensuite préparées pour être analysées, et pour développer des requêtes qui leur seront ensuite appliquées.
Ensuite, diverses visualisations en sont tirées, comme des rapports ou des tableaux de bord. Cela permet de mettre les résultats analytiques collectés à la disposition des décideurs de l’entreprise.

Les Objectifs de la BI

Les programmes d’informatique décisionnelle offrent de nombreux bénéfices. Premièrement, l’accélération et l’amélioration de la prise de décision au sein de l’entreprise. Ensuite, l’optimisation des processus métier internes. Puis, l’augmentation de l’efficacité opérationnelle. Aussi, la génération de nouvelles recettes et un véritable gain d’avantages concurrentiels. Et il y a encore beaucoup d’autres bénéfices !
Ces programmes BI peuvent également servir à identifier des tendances de marché. De plus, ils peuvent aussi détecter les problèmes métier qu’il faut résoudre.
Les data BI peuvent contenir à la fois des informations historiques mais aussi de nouvelles données. Ces dernières sont collectées au sein de systèmes sources au fur et à mesure qu’elles sont générées. Ainsi, l’analyse BI prend part aux processus décisionnels, aussi bien au niveau stratégique que tactique.
Les outils BI étaient à la base utilisés seulement quasiment par des professionnels du monde informatique, principalement des analystes data. Ces derniers effectuaient les analyses et généraient des rapports qui contenaient les résultats des requêtes. Ces résultats étaient ensuite destinés aux utilisateurs métier. Mais aujourd’hui, cadres et opérationnels utilisent de plus en plus des logiciels d’informatique décisionnelle. Cela notamment grâce au développement d’outils d’exploration de data et de BI en libre-service.

Variantes de la BI

La Business Intelligence a plusieurs déclinaisons. Par exemple interrogation et analyse ponctuelles, rapports d’entreprise ou encore traitement analytique en ligne (OLAP). Egalement BI mobile, BI en temps réel, BI opérationnelle, BI en Cloud et SaaS, BI open source, BI collaborative etc. Et oui : l’informatique décisionnelle a autant de déclinaisons que d’applications d’analyse de data !
Mais la BI c’est aussi des logiciels de visualisation de data, également appelés DataViz. Ils permettent de mettre en forme des data sous formes d’infographies. De plus, la BI comprend également des outils pour créer des tableaux de bord et cartes scores.
On peut acheter ces applications BI séparément auprès d’éditeurs, ou grâce à une plateforme BI unifiée.
Les programmes BI incluent également des formes analytiques avancées. Par exemple l’exploration de données (Data Mining), l’analytique prédictif, exploration de texte (text mining), analyse statistique ou encore l’analytique Big Data. Ces programmes sont pilotés par des professionnels appelés Data Scientists, statisticiens ou encore développeurs de modèles prédictifs. Les équipes BI supervisent une analyse et une interrogation des data métier à un niveau moindre.


Expert-Com Data Sécurité Informatique BigData


Analytique

Ce terme désigne l’application de méthodes BI ou BA (Business Analytics) à un contenu numérique. Les entreprises ont recourt à un logiciel d’analytique pour avoir une visibilité totale sur la quantité, la nature et le mode d’utilisation d’un contenu créé.
Il faut savoir qu’une entreprise produit deux types de contenus : structurés et non structurés. Lorsque le contenu est structuré, il est stocké dans une base de données. Et lorsque le contenu n’est pas structuré, il peut se trouver n’importe où dans l’entreprise. Dans ce cas là, il peut être sous forme de texte (emails par exemple), documents de bureaux ou Web. Aussi, le contenu peut se trouver sous forme de médias : vidéos, images ou encore des enregistrements vocaux.
Afin d’identifier des schémas et tendances à l’échelle des contenus non structurés d’une entreprise, un logiciel analytique fait appel différents outils. Par exemple l’analyse de tendances, l’exploration contextuelle ou l’analyse prédictive.
L’objectif de cette analyse est d’obtenir des éclaircissements pour améliorer la prise de décision. Par exemple : un schéma découvert au sein d’un contenu non structuré peut alors expliquer une tendance dans des data structurées. Et inversement !
De plus, l’analytique aide les entreprises à améliorer leur gestion des chaines ILM (Information Lifecycle Management, gestion du cycle de vie des informations). Elle exécute cette mission grâce à la mise en place d’éléments de mesure des coûts et de la consommation.
Grâce à ces indicateurs métier, les entreprises identifient les contenus numériques les plus avantageux. Ainsi, elles peuvent ajuster leurs investissements en stockage et analytique en conséquence.


Master Data Management (MDM)

La gestion des data de référence, ou MDM, est une méthode qui permet à l’entreprise d’associer toutes ses data critiques à un unique fichier. Celui-ci est appelé « fichier maître » et il constitue un point de référence commun.
Lorsqu’elle est bien effectuée, la MDM rationalise le partage des data, et ce à l’échelle du personnel et des services de l’entreprise.
En parallèle, la MDM permet de faciliter le traitement numérique dans les environnement à plusieurs architectures systèmes, plateformes et applications.
Le modèle MDM présente de nombreux avantages. Ces derniers augmentent au fur et à mesure que s’accroît le nombre et la diversité des services d’entreprise. Mais aussi l’accroissement des rôles professionnels et des applications informatiques. Ainsi, ce sont les grandes entreprises qui seront le plus intéressées par la MDM. En effet, celles-ci sont plus complexes et de plus grandes envergures que les PME ou organisations plus simples.
La MDM permet également, en cas de fusion, de minimiser la confusion et elle optimise l’efficacité de la nouvelle et plus grande structure. Et pour que la MDM soit à sa capacité maximale, le personnel et tous les services de l’entreprise doivent être formé au stockage et formatage des data. Ainsi qu’aux méthodes d’accès à ces dernières. Il est également essentiel d’effectuer des mises à jours fréquentes et coordonnées du fichier de données maître.


Modélisation de données (data)

La modélisation de données fait écho à la formalisation et documentation de processus et événements se produisant lors de la conception et du développement des applications. Les techniques et outils de la modélisation de données permettent de recueillir les conceptions de systèmes complexes. De plus, ils les traduisent sous formes des représentations simplifiées des processus et des flux de données. Ainsi, un modèle est créé pour la construction et la ré ingénierie.
Un modèle de données (data) peut se comparer à un diagramme de flux illustrant les relations entre données. Et recueillir toutes les relations existantes dans un modèle de données peut se révéler chronophage ! Néanmoins, c’est une étape importante et qui ne doit pas être précipitée. Les modèles qui sont bien documentés permettent de révéler les erreurs. Ainsi, il est possible de faire les corrections nécessaires avant d’écrire le code.
Plusieurs modèles sont utilisés par les modélisateurs de données. Ils permettent de représenter les mêmes données et assurent que la totalité des processus, entités, relations et flux de data a été identifiée. La modélisation de données comprend différentes approches :

  • La Modélisation conceptuelle de données permet d’identifier le niveau de relation le plus élevé entre différentes entités.
  • La Modélisation de données d’entreprise est semblable à la modélisation conceptuelle de données. Néanmoins, elle permet de répondre aux besoins précis d’une entreprise.
  • La Modélisation logique de données illustre spécifiquement des entités, attributs et relations qui sont impliqués dans une fonction métier. Elle est le point de départ de la création du modèle physique de données.
  • La Modélisation physique de données représente l’implémentation propre à une application et à une base de données d’un modèle logique de données.

Expert-Com Data CyberSécurité BigData


Big Data

Ce terme décrit l’ensemble de très gros volumes de données. Ces dernières peuvent être à la fois structurées, semi-structurées ou non structurées. Elles peuvent être traitées et exploitées avec pour objectif d’en retirer des informations compréhensibles et pertinentes.

3V, 4V, 6V

Les Big Data sont définis par la règle des « 3V » :

  • Volume : les Big Data désignent de gros volumes de données brutes
  • Variété : un ensemble Big Data se compose généralement de data hétérogènes, structurées ou non
  • Vitesse : ou encore Vélocité. En effet les données Big Data sont générées très vite, voire en continu. Donc cela implique de les traiter rapidement, voire en temps réel !

Il n’existe pas de définition précise du volume minimum requis du Big Data. En effet, on emploie ce terme pour parler de petabytes et d’exabytes de données. Donc de volumes très important, posant des défis d’intégration et de traitement. Certains éditeurs parlent d’un 4e V : Véracité (Veracity)/ Cette notion est à rappel à la qualité imparfaite des data. De par leur nature, les données Big Data comportent des informations incomplètes, en double ou même incohérentes.
De plus, il existe un 5e et un 6e V. Tout d’abord la Volatilité (Volatility), une notion en lien avec la Vitesse. En effet, il s’agit de la durée de vie des data générées. Autrement dit, pendant combien de temps ces données sont valides. La volatilité des Big Data diffère beaucoup selon les domaines. Et c’est ce qui rend cet élément important et à prendre en compte d’un point de vue opérationnel. Mais cela ne les définit pas d’un point de vue théorique.
Le dernier V est la notion de Validité (Validity). Une fois de plus, cela renvoie plus à une étape préliminaire de la gestion des Big Data qu’à leur définition propre.

Big is not Bigger. Big is different.

De nouvelles procédures de stockage et d’analyses ont vu le jour. En effet, l’analytique Big Data prend beaucoup de temps et d’argent. Ces approches sont moins basées sur la qualité ou les schémas de données. En réalité, des données brutes (et augmentées de métadonnées) sont agrégées telles quelles et stockées dans des Data Lake. Des schémas récurrents (patterns) sont alors repérés avec des outils de Machine Learning et d’intelligence artificielle (AI), s’appuyant sur des algorithmes complexes prédictifs ou prescriptifs.
Nicholas Nassim Taleb dit dans son livre Antifragile : « Big is not bigger; Big is different« . Ainsi, le changement d’échelle n’implique pas d’outils plus puissants, mais différents. Car changer d’échelle signifie changer la logique sous-jacente.
Donc, le Big Data n’a pas besoin de bases de données plus importantes ou de plus gros disques durs. Il appelle à des technologies différentes : SSD, Hadoop, MapReduce, clusters de serveurs, In-Memory, bases NoSQL etc. De plus, le Big Data est souvent associé au Cloud de par sa puissance de traitement et ses capacités de stockage. En effet, celles-ci sont qualifiées d’ « infinies » par les services marketing des prestataires.

Des Datas et des Hommes

La demande pour l’analytique du Big Data n’arrête pas d’augmenter. Par exemple dans le marketing, cela permet de détecter des signaux faibles dans les tendances d’achats. Ou encore dans le milieu de la banque où on peut repérer des fraudes en temps réel. Néanmoins, l’urgence aujourd’hui est de trouver des Data Scientists et autres professionnels possédant les capacités nécessaires et suffisantes à l’exploitation du Big Data.
On parle parfois de « Small Data » en opposition au Big Data. Ce sont des données qui, de par leur volume et leur format, sont compréhensibles et utilisables par tous. Par exemple un BI en seul-service.

Le Big Data est taillé pour les machines, le Small Data est taillé pour les Hommes

Big Data en français

La Commission Générale de Terminologie et de Néologie (avec l’Académie française) a statué il y a 3 ans qu’en France, l’expression Big Data se traduit officiellement par Mégadonnées.
Mais on retrouve des expressions telles que « données volumineuses » ou encore « données massives« .

Partagez l'article

Partager sur facebook
Partager sur twitter
Partager sur linkedin
Partager sur email