Se encuentra usted aquí

¿Qué es la virtualización de datos?

La virtualización de datos es sinónimo de agilidad en el acceso a la información – facilita la visión de los datos de negocio de forma unificada, simplificada e integrada en tiempo real o de forma cercana al tiempo real, según precisen las aplicaciones consumidoras, los procesos, las herramientas analíticas o los usuarios de negocio. La virtualización de datos integra datos de fuentes dispersas, en distintas localizaciones y formatos, sin replicar los datos, para construir una capa de datos virtual que facilita la provisión de servicios de datos unificados para dar soporte a múltiples aplicaciones y usuarios. El resultado es un acceso más rápido a todos los datos, una menor replicación y menores costes asociados y una mayor agilidad frente al cambio.

¿Quieres saber más de la virtualización de datos? Visita esta página para ver cómo funciona en tres pasos muy sencillos.

La virtualización de datos es una integración de datos moderna. Realiza muchas de las transformaciones y funciones de calidad de datos que utilizan las tecnologías más tradicionales de integración de datos (extracción – transformación – carga, ETL), replicación de datos, federación de datos, enterprise service bus (ESB), etc., pero utilizando tecnología moderna para permitir una integración de datos en tiempo real a un coste más bajo, más rápida y con una mayor agilidad. Puede reemplazar las tecnologías tradicionales de integración de datos y reducir la necesidad de data marts replicados y data warehouses en muchos casos, pero no completamente.

La virtualización de datos es una capa de abstracción y una capa de servicios de datos. En este sentido, puede utilizarse de forma complementaria a otras tecnologías entre las fuentes de datos originales (e.g.. aplicaciones empresariales) y las fuentes derivadas (e.g. repositorios de datos construidos mediante replicación de información), las tecnologías de ETL, ESB y otros middleware, aplicaciones y dispositivos, tanto en nuestro centro de datos o en la nube, para proporcionar mayor flexibilidad entre las distintas capas de información. De esta manera obtenemos mayor flexibilidad entre las distintas capas de información.

5 capacidades que la virtualización de datos ofrece:

  • Abstracción lógica y desacoplamiento. Las fuentes de datos dispersas, el middleware y las aplicaciones que esperan interfaces específicas, formatos, esquemas, protocolos de seguridad, paradigmas de consulta concretos y otras particularidades, pueden interactuar ahora fácilmente mediante la virtualización de datos.
  • Federación de datos en esteroides. La federación de datos es un subconjunto de la virtualización de datos, si bien ahora se encuentra mejorada y potenciada gracias a la optimización inteligente de consultas en tiempo real, la caché, el uso de estrategias híbridas que combinan materialización en caché, acceso en tiempo real y caché en memoria y que pueden utilizarse de forma automática (o manual) en función de las restricciones de las fuentes, las necesidades de la aplicación o las latencias de la red.
  • Integración semántica de datos estructurados y no estructurados. La virtualización de datos es una de las tecnologías que rompen la barrera de la compresión semántica de los datos no estructurados y web, con los datos estructurados que siguen un esquema, y que permiten la integración y las mejoras en calidad de datos.
  • La provisión de servicios de datos ágiles. La virtualización de datos promueve la economía del API. Cualquier fuente original, integrada o virtual puede hacerse accesible en un protocolo o formato diferente al original, con control de acceso en cuestión de minutos.
  • Gobernanza de datos y seguridad unificadas. Todos los datos pueden hacerse descubribles e integrables fácilmente mediante una capa de acceso unificada virtual que expone de una forma más rápida incidencias como posibles redundancias entre los datos y cuestiones relativas a la calidad de los mismos. A la vez que soluciona estos problemas, la virtualización de datos ofrece una gobernanza y seguridad de datos desde las fuentes hasta los servicios de datos que se exponen a las aplicaciones garantizando la consistencia en la integración de los datos y las reglas de calidad de los mismos.

Estas capacidades no se encuentran en ningún otro middleware de integración en la actualidad. Si bien podemos agruparlas mediante el uso de distintos componentes y la codificación a medida, ello destruye cualquier tipo de agilidad o ventajas en cuanto a velocidad que podamos estar buscando.

5 funcionalidades de la virtualización de datos – desde una funcionalidad concreta hasta la plataforma empresarial

Según la virtualización de datos gana en popularidad, algunas de sus funcionalidades son incluidas en otros productos o como un módulo add-on añadido al producto. Esto puede ser positivo, especialmente cuando esta funcionalidad se ofrece en el coste del otro producto.

Sin embargo, ser capaz de distinguir la diferencia entre un módulo add-on o una funcionalidad de virtualización de datos añadida en otro producto, y una plataforma empresarial de virtualización de datos es importante por varias razones:

  • La amplitud de estas capacidades puede ser muy limitada, especialmente en lo que respecta a la capacidad de añadir fuentes, modelado lógico, rendimiento, seguridad y gobernanza.
  • A menudo estas funcionalidades se encuentran optimizadas para ofrecer una función añadida sobre el producto en cuestión – por ejemplo en herramientas de prototipado para ETL, data warehouse, o MDM; o para proporcionar una capa semántica sobre una herramienta de BI. Por tanto el producto no se haya enfocado a ser en realidad una capa de virtualización que pueda soportar multitud de fuentes heterogéneas, consumidores y patrones de uso.A menudo ello supone disponer de productos o componentes del mismo fabricante como requisito imprescindible para obtener valor de la funcionalidad de virtualización de datos.

La siguiente lista puede ser de ayuda para comprender la virtualización de datos en sus múltiples facetas:

  • Data blending (combinación de datos). Esta funcionalidad aparece a menudo como una capa para la construcción del universo de datos semántico dentro de una herramienta de BI, o como un nuevo módulo ofrecido por un proveedor de BI. El “data blending” es capaz de combinar datos de múltiples fuentes (típicamente ofrecen sólo una lista limitada de fuentes estructuradas o de big data) para alimentar una herramienta de reporting, pero la salida sólo puede consumirse dentro de la propia herramienta y no puede ser accedida desde cualquier otra aplicación externa para su consumo.
  • Productos de “SQLification”.  Este es un área emergente en particular entre los suministradores de big data y Hadoop. Estos productos “virtualizan” las tecnologías de big data y permiten que los datos de estas fuentes puedan ser combinados junto con fuentes de datos relacionales y ficheros planos, utilizando para ello consultas estándar SQL. Esta funcionalidad puede ser relevante para proyectos enfocados en un caso concreto de acceso a información de repositorios big data, pero no pueden ir más allá.
  • Servicios de datos en la nube. Estos productos a menudo se despliegan en la nube y disponen de integración pre-configurada con aplicaciones SaaS y en la nube, con bases de datos en la nube y algunas herramientas de desktop tanto en la nube como en el desktop del usuario como Excel. En lugar de constituir un producto real de virtualización de datos con diversas capas de acceso a datos y ejecución delegable de consultas, estos productos exponen APIs normalizados entre fuentes en la nube para una compartición sencilla de datos en proyectos que gestionen pequeños volúmenes de datos. En cualquier proyecto que involucre analítica big data, sistemas empresariales, mainframes, bases de datos de gran tamaño, ficheros planos y datos no estructurados se hayan totalmente fuera de contexto en su aplicación.
  • Plataforma de virtualización de datos. Construida desde el inicio en su origen para ofrecer capacidades de virtualización de datos para la empresa, con un enfoque “muchos a muchos” a través de una capa de datos virtual. Diseñada para ofrecer agilidad y velocidad en un amplio rango de casos de aplicación, de una forma agnóstica en cuanto a fuentes y consumidores de los datos, y en colaboración y competencia con otros middlewares menos eficientes. Pulsa aquí para conocer más sobre la plataforma Denodo.

6 Cosas que NO son virtualización de datos

La descripción sobre la virtualización de datos que hemos proporcionado al inicio de esta sección es consistente con las definiciones proporcionadas por analistas líderes de la industria. Sin embargo algunos fabricantes hacen uso de vocablos similares para el marketing de otros productos con el objetivo de capitalizar la popularidad actual de la virtualización de datos.

La virtualización de datos …

  • No es visualización de datos. Suena similar, pero visualización se refiere a la presentación gráfica de los datos a los usuarios finales mediante gráficos de columnas, mapas, tartas, informes, etc. La virtualización de datos es al contrario middleware que proporciona datos a herramientas de visualización de datos. Si bien dispone de algunas facilidades para la visualización de los datos para los usuarios y para los desarrolladores, esa no es su principal función.
  • No es un repositorio de datos replicado. La virtualización de datos en general no persiste o replica datos desde los sistemas origen hacia sí misma. Sólo almacena los metadatos que se corresponden con las vistas virtuales y la lógica de integración asociada. Si se habilita la caché, se almacenan datos de forma temporal en la caché, que puede ser una base de datos convencional o bien una base de datos en memoria. Los datos virtuales pueden persistirse si se desea, simplemente mediante su invocación como una fuente haciendo uso de una herramienta ETL externa. De modo que la virtualización de datos es muy potente, a la vez que una solución ligera y ágil.
  • No es un logical data warehouse. El logical data warehouse es una arquitectura conceptual y no una plataforma. La virtualización de datos es una tecnología esencial de cara a crear un logical data warehouse facilitando la combinación de datos de múltiples fuentes, del data warehouse y de los repositorios de big data como Hadoop.
  • No es federación de datos. La prestigiosa institución TDWI proporciona un curso sobre virtualización de datos muy interesante en el que afirma: “mientras toda la federación de datos es virtualización de datos, no toda la virtualización de datos es federación de datos”. Es decir, la virtualización de datos es un superconjunto de la federación de datos, que incluye federación avanzada de datos.
  • No es almacenamiento de datos virtualizado. Algunas empresas y productos hacen uso del mismo término de “virtualización de datos” para describir software de bases de datos virtualizadas, o soluciones de almacenamiento hardware para la virtualización de datos. No proporcionan integración de datos en tiempo real y servicios de datos desde fuentes dispersas estructuradas y no estructuradas.
  • No es “virtualización”. Cuando hablamos del término “virtualización” a menudo se utiliza de forma asilada para referirse a la virtualización hardware – servidores, discos de almacenamiento, redes, etc.