Virtualización de datos para big data

La plataforma Denodo soporta múltiples patrones o casos de uso relacionados con big data – bien sobre distribuciones de Hadoop (Cloudera, Hortonworks, Amazon’s Elastic Map reduce sobre EC2, etc.) o sobre fuentes NoSQL tales como MongoDB, Cassandra, Neo4j, Aerospike, etc. Estos nuevos repositorios de datos no proporcionan interfaces de acceso estándar JDBC/ODBC basadas en el lenguaje de consulta SQL, lo que hace difícil su uso por parte de las herramientas de BI y de analítica que están familiarizadas con las consultas SQL. La plataforma Denodo proporciona una capa de abstracción y federación que oculta las complejidades de los repositorios de big data y hace fácil integrar datos desde estos repositorios con otros datos de la empresa.

La plataforma Denodo suporta un gran número de patrones de big data, entre los que se encuentran:

Data warehouse híbrido

También denominado “descarga del data warehouse” o “particionado horizontal”, este patrón de uso se basa en descargar del data warehouse los datos más viejos o de menor frecuencia de acceso y llevarlos hacia un medio de almacenamiento más económico como es por ejemplo el sistema de ficheros HDFS de Hadoop. La plataforma Denodo se utiliza por encima de ambos repositorios, el data warehouse y el repositorio Hadoop, federando las consultas hacia los mismos de modo que el data warehouse híbrido aparece como un único data warehouse a los ojos de las aplicaciones consumidoras. La plataforma Denodo optimiza las consultas de modo que las ramas innecesarias de la ejecución de consultas (e.g. que se ejecutan sobre datos que no satisfacen la condición de consulta) son ignoradas, de modo que se mejora el rendimiento en la ejecución de las mismas, facilitando con ello la consecución de los SLAs establecidos.

Hybrid Data Warehouse

Lagos de datos y hubs de datos empresariales

Ambos patrones se basan en el almacenamiento de datos en un repositorio central basado en Hadoop. Con ello se consigue disminuir el coste del almacenamiento de cantidades masivas de datos gracias al uso de un repositorio centralizado desde donde se sirven los datos al resto de la organización.

Sin embargo, los usuarios desean acceder a los datos haciendo uso de sus herramientas habituales – bien basadas en JDBC/ODBC y consultas SQL como son las herramientas de reporting y BI, en servicios web SOAP/XML para sistemas ESB/BPM, o servicios RESTful para aplicaciones web o móviles, etc.

La plataforma Denodo proporciona una capa basada en interfaces estandarizadas para el acceso a datos almacenados en un lago de datos o en un hub de datos empresarial. Abstrae las complejidades de los datos en el lago de datos o en el hub para presentar los mismos mediante protocolos estándar basados en SQL (JDBC, ODBC, ADO.NET), en web services (SOAP/XML, REST) o en Web Parts para la integración con Microsoft SharePoint. La plataforma Denodo hace sencilla la integración de datos en el lago de datos con datos de otras fuentes, como los servicios web externos, datos de aplicaciones Web, bases de datos operacionales, aplicaciones empresariales, etc.

Analytical Data Integration Diagram

Integración de datos analíticos

Hadoop es una herramienta muy potente para conseguir realizar análisis de datos sobre volúmenes gigantescos a un coste y tiempo efectivos – extrayendo información crítica sobre datos de sensores, de clicks en páginas web, datos de terminales móviles, etc. Sin embargo, realizar el análisis sobre estos datos es sólo el primer paso para sacar todos los beneficios de Hadoop y de Big Data en general.

Una vez que se han realizado los análisis y se han recibido los resultados que se deseaban, se necesita transformar estos datos en información accionable. Esto supone integrar los resultados analíticos con otra información disponible en la empresa – información por ejemplo del sistema CRM o del sistema de gestión de pedidos.

Aquí es donde la plataforma Denodo entra en juego. La plataforma Denodo permite una rápida y sencilla integración de los datos de Hadoop con datos de otras fuentes más tradicionales – como los data warehouses, las bases de datos operacionales, las aplicaciones empresariales tanto en el centro de datos como en la nube, etc. La plataforma Denodo expone una visión integrada de los datos como servicios que pueden consumir las aplicaciones – las herramientas de reporting, los cuadros de mando, Excel, las aplicaciones web, las aplicaciones móviles, etc. – haciendo sencillo transformar los resultados analíticos en información accionable que puedan utilizar los responsables del negocio.

Analytical Data Integration Diagram

Big data como una “Sandbox” analítica

El data warehouse es una parte crítica de la arquitectura de datos en muchas empresas. Se ha diseñado para proporcionar una respuesta interactiva a consultas para análisis e informes. Lo último que querríamos es que un analista de negocio pudiesen ejecutar consultas muy pesadas sobre el data warehouse mientras juega con los datos, que puedan interrumpir el funcionamiento del mismo y amenazar los SLAs establecidos para su funcionamiento.

Para evitar esta situación es necesario trasegar los datos hacia una Sandbox en donde el analista de negocio pueda jugar con los datos sin afectar el rendimiento y la estabilidad de la operación del data warehouse. Aquí es donde Hadoop y la virtualización de datos entran en escena … los datos son trasegados desde el data warehouse hacia una plataforma de bajo coste como Hadoop, protegiendo al data warehouse de una carga de trabajo adicional no contemplada. La plataforma Denodo proporciona interfaces de acceso estandarizadas hacia los datos que se han trasegado a Hadoop, permitiendo al analista de negocio hacer uso de sus herramientas habituales para realizar el análisis de los datos. La plataforma Denodo soporta JDBC/ODBC permitiendo al analista hacer uso de herramientas convencionales de reporting junto a nuevos lenguajes de programación como el lenguaje “R” para desarrollar nuevas aplicaciones analíticas.

Y ahora, ¿qué?

Consigue información relevante y en tiempo real a través de los datos para impulsar la transformación digital de tu negocio