Vous êtes ici

Aperçu de la Virtualisation des Données

Qu'est-ce que la virtualisation des données? 

La virtualisation des données se réfère à l'agilité de l'information - elle fournit un aperçu simplifié, unifié et intégré des données métiers fiables, en temps réel ou temps quasi-réel, comme requis par les applications consommatrices de données, les procédures, les analyses ou les utilisateurs de l'entreprise. La virtualisation des données intègre les données de sources, localisations et formats disparates, sans répliquer les données, afin de créer une couche unique « virtuelle » de données qui offre des services de données unifiés pour supporter des applications et utilisateurs multiples. Il en résulte un accès plus rapide aux données, moins de réplications, un coût moins élevé et plus d'agilité pour le changement.

Souhaitez-vous plus d'informations sur la virtualisation des données ? Visitez cette page pour découvrir son fonctionnement en trois étapes simples. 

La virtualisation des données est une intégration moderne des données. Elle réalise plusieurs des mêmes fonctions de transformation et de qualité que l'intégration des données traditionnelle (Extraire-Transformer-Charger (ETL), réplication des données, fédération des données, Enterprise Service Bus (ESB), etc.) mais en tirant profit de la technologie moderne pour offrir une intégration des données en temps réel à un moindre coût, avec plus de vitesse et d'agilité. Elle peut remplacer l'intégration des données traditionnelle et réduire le besoin en mini-entrepôts et entrepôts de données répliquées, dans plusieurs cas, mais pas totalement. 

La virtualisation des données est aussi une couche d'abstraction et une couche de données de services. En ce sens, l'ETL, l'ESB et autres intergiciels, les applications et appareils, utilisés entre des sources de données originales et dérivées sont très complémentaires, en interne ou dans le cloud, pour fournir de la flexibilité entre les couches d'informations et la technologie commerciale.

5 capacités clés offertes par la virtualisation de données : 

  1. Abstraction logique et découplage - Les sources de données disparates, intergiciels et applications consommatrices qui utilisent ou nécessitent des plates-formes et interfaces, formats, schémas, protocoles de sécurité et paradigmes de requêtes spécifiques, et d'autres idiosyncrasies, peuvent maintenant interagir facilement à travers la virtualisation des données.  
  2. Fédération des données - La fédération des données est un sous-ensemble de la virtualisation des données, aujourd'hui amélioré avec une optimisation des requêtes, une mise en mémoire-cache et des stratégies intégrées et hybrides en temps réel, plus intelligentes, qui sont automatiquement (ou manuellement) choisies en fonction des contraintes des sources, des besoins d'applications et de la sensibilisation du réseau. 
  3. Intégration sémantique des données structurées et non structurées - La virtualisation des données est l'une des rares technologies qui relie la compréhension sémantique des données non structurées et des données du Web, à la compréhension schématisée des données structurées pour permettre des améliorations de l'intégration et de la qualité des données. 
  4. Offre de services de données agiles - La virtualisation des données soutient l'économie des API. Toute source primaire, dérivée, intégrée ou virtuelle de données peut se rendre accessible dans un format ou un protocole différent de l'original, avec un accès contrôlé, en l'espace de quelques minutes. 
  5. Gouvernance & Sécurité des données unifiées - Toutes les données peuvent facilement être dévoilées et intégrées à travers une couche virtuelle unique qui expose plus rapidement les problèmes de redondance et de qualité. Pendant que ces problèmes sont traités, la virtualisation des données impose un modèle de gouvernance et de sécurité des données, de la source aux services de données de sortie, et une homogénéité de l'intégration et des règles de qualité de données. 

Ces capacités ne doivent pas se retrouver ensemble dans n'importe quel intergiciel d'intégration. Cela pourrait détruire l'agilité ou l'avantage de rapidité que vous recherchez, même si elles peuvent être rassemblées ou codées sur mesure.

5 modèles de virtualisation des données - Des « Fonctionnalités » à la « Plate-forme d'entreprise » 

Parce que la virtualisation des données gagne en notoriété, certaines de ces fonctionnalités sont inclues dans d'autres produits ou en tant que modules ou fonctionnalités complémentaires. C'est une bonne chose, en particulier, si c'est inclus dans le coût de l'autre produit.

Cependant, il est important de savoir faire la différence entre un produit de virtualisation des données complémentaire ou intégré et une plate-forme de virtualisation des données d'entreprise, pour plusieurs raisons :

  • L'ampleur des capacités peut être très limitée. En particulier, les sources, la modélisation logique, la performance, la sécurité et la gouvernance.  
  • Le produit est optimisé pour jouer une fonction auxiliaire au produit principal du vendeur - tels que le prototypage d'un ETL / l'entreposage des données, le projet de gestion des données de référence (MDM), le fournisseur d'outil ; ou pour fournir une couche sémantique à un outil de la BI. Ainsi, le produit n'est plus seulement une vraie couche à haute performance de virtualisation des données d'entreprise qui supporte largement des sources, des consommateurs et des patrons de solutions hétérogènes. 
  • L'enfermement propriétaire requiert des produits préalables ou des modules complémentaires du même vendeur pour obtenir la meilleure valeur du produit de virtualisation des données.

La liste suivante aide à comprendre la virtualisation des données sous plusieurs formes : 

  1. Assemblage des données - Il est souvent inclus dans la couche d'univers sémantique d'un outil d'informatique décisionnelle (BI) ou représente un nouveau module offert par un vendeur majeur de BI. L'assemblage des données peut combiner plusieurs sources (liste limitée de données structurées ou de Big Data) pour alimenter l'outil de BI, mais les données de sortie ne sont disponibles que pour cet outil et ne sont pas accessibles depuis une autre application de consommation externe.
  2. Module de services de données - Ils sont souvent proposés en coût additionnel par la Suite d'intégration des données (ETL / MDM / Qualité des données) ou par les vendeurs d'entrepôts de données. La suite a souvent un très fort potentiel dans d'autres domaines. Quand il s'agit de virtualisation des données, certaines fonctionnalités partagées avec la suite comme la modélisation, la transformation et les fonctions de qualité, sont très robustes, mais à l'inverse, le moteur de virtualisation des données, l'optimisation des requêtes, la mise en mémoire-cache, les couches virtuelles de sécurité, la flexibilité du modèle de données de sources non structurées et la performance globale sont faibles. La raison en est que le produit est conçu pour un prototype d'ETL ou MDM et non pour le concurrencer pendant la production.
  3. Produits SQLification - C'est une offre émergeant, en particulier, chez les vendeurs de Big Data et d'Hadoop. Ces produits « virtualisent » les technologies de Big Data sous-jacentes et leur permettent de se combiner à des sources de données relationnelles et des fichiers plats, et de s'interroger en utilisant le SQL standard. C'est bien pour les projets centrés sur une pile de Big Data spécifique, mais pas au-delà. 
  4. Service de données du Cloud - Ces produits sont souvent déployés dans le cloud et ont des intégrations préétablies aux applications de SaaS et du cloud, aux bases de données du cloud, et à quelques outils de bureau et internes comme Excel. Ces produits, contrairement à un vrai produit de virtualisation des données avec des aperçus à plusieurs niveaux et une exécution de requête délégable, exposent des API normalisés à travers des sources de cloud pour un échange de données simple dans les projets de volume moyen. Les projets impliquant des analyses de Big Data, de gros systèmes d'entreprise, des ordinateurs centraux, de larges bases de données, des fichiers plats et des données non structurées sont hors-champs.
  5. Plate-forme de virtualisation des données - Construite à partir de zéro pour offrir des capacités de virtualisation des données pour l'entreprise de manière multiple à travers une couche de données « virtuelle » Conçue pour l'agilité et la rapidité dans un éventail vaste d'utilisations, agnostique face aux sources et consommateurs, et en concurrence et collaboration avec d'autres intergiciels moins efficaces. Cliquez ici pour en savoir plus sur la Denodo Platform.


6 choses que la virtualisation des données n'est pas : 

La description précédente de la virtualisation des données est cohérente avec les définitions données par les meilleurs analystes de l'industrie. Cependant, certains vendeurs utilisent des termes en vogue similaires pour communiquer sur d'autres produits afin de profiter de la notoriété de la virtualisation des données. Cette liste aide à dissiper la confusion.

La virtualisation des données...

  1. n'est pas la visualisation des données. Elles se ressemblent mais la visualisation des données se réfère à l'affichage graphique des données aux utilisateurs, comme les diagrammes, graphiques, plans, rapports, etc.  La virtualisation des données est un intergiciel qui offre des services de données à d'autres outils et applications de virtualisation des données. Même si la visualisation propose un peu de virtualisation des données aux utilisateurs et développeur·se·s, ce n'est pas sa fonctionnalité principale.
  2. n'est pas un magasin de données répliquées. Normalement, la virtualisation des données ne maintient pas ou ne réplique pas les données de sources pour elle-même. Elle ne fait que stocker les métadonnées pour les vues virtuelles et la logique d'intégration. Si la mise en mémoire-cache est autorisée, elle stocke temporairement quelques données dans un cache ou dans une base de données intégrée. Les données virtuelles peuvent être maintenues volontairement, juste en les invoquant en tant que source en utilisant l'ETL. Ainsi, la virtualisation des données est une solution puissante bien que très légère et agile.
  3. n'est pas un entrepôt de données logique. L'entrepôt de données (DWH) logique est un concept d'architecture, pas une plate-forme. La virtualisation des données est une technologie essentielle utilisée pour créer un DWH logique en combinant plusieurs sources de données, d'entrepôts de données et de magasins de Big Data comme Hadoop.
  4. n'est pas la fédération des données. TDWI donne un cours sur la virtualisation des données qui explique ceci : « Toutes les données fédérées sont des données virtuelles, mais toutes les données virtuelles ne sont pas des données fédérées ». Ainsi, la virtualisation des données est un super-ensemble de capacités qui inclut la fédération des données avancée.  
  5. n'est pas un stockage de données virtuel. Quelques entreprises et produits utilisent exactement les mêmes termes de « virtualisation des données » pour décrire un logiciel de base de données virtualisé ou des solutions de virtualisation de stockage matériel. Elles n'offrent pas d'intégration ou de solutions de données en temps réel à travers plusieurs sources de données structurées et non structurées.
  6. n'est pas la virtualisation. Quand le terme « virtualisation » est utilisé seul, il se réfère généralement à la virtualisation matérielle - serveurs, disques de stockage, réseaux, etc.