A medida que las empresas generan más y más datos, el enfoque tradicional para el almacenamiento de datos se está volviendo cada vez más complejo y costoso de mantener. Data Vault, un enfoque relativamente nuevo para el almacenamiento de datos, ofrece una solución a este problema al proporcionar una forma escalable, flexible y rentable de gestionar grandes cantidades de datos.
En esta publicación, exploraremos cómo las bóvedas de datos son el futuro del almacenamiento de datos y por qué cada vez más empresas están adoptando este enfoque.¡También proporcionaremos recursos de aprendizaje para aquellos que desean sumergirse más profundamente en el tema!
- ¿Qué es una bóveda de datos?
- En esta arquitectura, todos los datos se almacenan en una bóveda de datos sin procesar o un lago de datos, mientras que los datos utilizados con frecuencia se almacenan en un formato normalizado en una bóveda comercial que contiene datos históricos y sensibles al contexto que pueden usarse para informar.
- Bóveda operativa: almacena datos que vengan directamente de los sistemas operativos a la bóveda de datos (opcional).
- №3. Satélites
- Fuente de la imagen: Carbidfisher
- №1. Definición de entidades y atributos
- № 2. Definición de las relaciones de la entidad y la creación de enlaces
- Una vez que se crean los enlaces, se debe establecer un conjunto de reglas y estándares para modelar el almacén de datos para que el modelo sea flexible y pueda manejar los cambios con el tiempo. Estas reglas y estándares deben revisarse y actualizarse regularmente para garantizar que sigan siendo relevantes y alineados con las necesidades comerciales.
- Una vez que se ha creado el modelo, debe poblarse con datos utilizando el método de carga incremental. Implica cargar datos en centros, enlaces y satélites utilizando la carga delta. La carga delta asegura que solo se carguen cambios realizados en los datos, lo que reduce el tiempo y los recursos necesarios para la integración de datos.
- Finalmente, el modelo debe ser probado y validado para garantizar que cumpla con los requisitos comerciales y sea lo suficientemente escalable y flexible para cambios futuros. Se deben realizar un mantenimiento y actualizaciones regulares para garantizar que el modelo esté alineado con las necesidades comerciales y continúe proporcionando una vista unificada de los datos.
- Dominar datos de datos puede proporcionar habilidades y conocimientos valiosos que son muy buscados en las industrias centradas en datos actuales. Aquí hay una lista completa de recursos, incluidos cursos y libros, que pueden ayudarlo a aprender las complejidades de la bóveda de datos:
- Este curso de Udemy es una introducción integral al enfoque de modelado Data Vault 2. 0, gestión de proyectos ágiles e integración de big data. El curso cubre los fundamentos de Data Vault 2. 0, incluidas su arquitectura y niveles, tiendas de negocios e información, y técnicas de modelado avanzado.
- Con una alta calificación de 4. 4 de 5 y más de 1, 700 revisiones, este curso más vendido es adecuado para cualquier persona que quiera construir una base sólida para Data Vault 2. 0 e integración de Big Data.
- Este curso de Udemy tiene como objetivo enseñarle cómo crear un modelo de almacén de datos utilizando un ejemplo de negocio práctico. Sirve como una guía para principiantes para el modelado del almacén de datos y cubre conceptos clave, como casos de uso relevantes para modelos de almacén de datos, las limitaciones del modelado OLAP tradicional y un enfoque sistemático para construir un modelo de almacén de datos. El curso es accesible para personas con un mínimo conocimiento de la base de datos.
- Data Vault Guru del Sr. Patrick Kuba es una guía detallada de la metodología de almacén de datos que ofrece una oportunidad única para modelar un almacén de datos empresarial utilizando principios de automatización similares a los utilizados en la entrega de software.
- Este libro proporciona a los lectores una guía integral para construir un almacén de datos escalable de principio a fin utilizando la metodología Data Vault 2. 0.
- El libro contiene muchos ejemplos para ayudar a los lectores a comprender claramente los conceptos. Con ideas prácticas y ejemplos del mundo real, este libro es un recurso esencial para cualquier persona interesada en el almacenamiento de datos.
- Con consejos prácticos y plantillas de muestra, el autor ofrece explicaciones claras y sencillas de temas complejos, lo que convierte al libro en una gran guía para aquellos que no están familiarizados con Data Vault.
- También le puede interesar aprender sobre el pedigrí de datos.
¿Qué es una bóveda de datos?
Data Vault es un método de modelado de almacén de datos particularmente adecuado para almacenes de datos ágiles. Ofrece un alto grado de flexibilidad para las extensiones, la histórica completa de los datos a través de las unidades de tiempo, y permite procesos de carga de datos altamente paralelos. Dan Linstedt desarrolló modelado de bóveda de datos en la década de 1990.
Después de su primera publicación en 2000, ganó más atención en 2002 con una serie de artículos. En 2007, Linstedt fue respaldado por Bill Inmon, quien lo calificó como la «elección óptima» para su arquitectura Data Vault 2. 0.
Cualquiera que se ocupe del término «almacén de datos flexible» saltará rápidamente a Data Vault. Lo que hace que esta tecnología sea especial es que está orientado a las necesidades de las empresas al proporcionar una personalización flexible del almacén de datos con un esfuerzo mínimo.
Data Vault 2. 0 analiza todo el proceso de desarrollo y la arquitectura y consiste en un método, arquitectura y modelo de componente (implementación). La ventaja es que este enfoque considera todos los aspectos de la inteligencia empresarial con el almacén de datos subyacente durante el desarrollo.
El modelo de bóveda de datos ofrece una solución moderna para superar las limitaciones de los enfoques de modelado de datos tradicionales. Con su escalabilidad, flexibilidad y agilidad, proporciona una base sólida para construir una plataforma de datos que pueda adaptarse a la complejidad y diversidad de los entornos de datos actuales.
La arquitectura central y la separación de Data Vault de entidades y atributos garantizan la integración y armonización de datos en múltiples sistemas y dominios, facilitando el desarrollo incremental y ágil.
En contraste, la arquitectura de la bóveda de datos es un enfoque híbrido que combina aspectos de las arquitecturas 3NF y Kimball. Es un modelo basado en principios relacionales, normalización de datos y matemáticas de redundancia que representa las relaciones entre las entidades de manera diferente y las estructuras campos de tabla y marcas de tiempo de manera diferente.
En esta arquitectura, todos los datos se almacenan en una bóveda de datos sin procesar o un lago de datos, mientras que los datos utilizados con frecuencia se almacenan en un formato normalizado en una bóveda comercial que contiene datos históricos y sensibles al contexto que pueden usarse para informar.
Data Vault resuelve los problemas de los modelos tradicionales al ser más eficientes, escalables y flexibles. Proporciona carga casi en tiempo real, una mejor integridad de datos y una expansión fácil sin comprometer las estructuras existentes. El modelo también se puede extender sin migrar las tablas existentes.
Enfoque de modelado.
Arquitectura de bóveda de datos
Data Vault tiene una arquitectura en forma de estrella y esencialmente consta de tres niveles:
Nivel intermedio: recopila datos sin procesar de sistemas de origen como CRM o ERP.
Nivel de bóveda de datos: al modelar el modelo de bóveda de datos, este nivel incluye:
Almacén de datos sin procesar: almacena datos sin procesar.
Tienda de datos comerciales: incluye datos consistentes y transformados basados en reglas comerciales (opcionales).
Vault de métricas: almacena información de tiempo de ejecución (opcional).
Bóveda operativa: almacena datos que vengan directamente de los sistemas operativos a la bóveda de datos (opcional).
Data Mostrar capa: esta capa modela datos en forma de esquema de estrellas y/u otras técnicas de modelado. Proporciona información para análisis e informes.
Fuente de la imagen: Lamia Jessad
Data Vault no requiere un rediseño de arquitectura. Se pueden crear nuevas características en paralelo, utilizando directamente los conceptos y métodos de bóveda de datos, sin que se pierdan los componentes existentes. Los marcos pueden hacer que el trabajo sea mucho más fácil: crean una capa entre el almacén de datos y el desarrollador y, por lo tanto, reducen la complejidad de la implementación.
- Componentes de bóveda de datos
- Durante el modelado, la bóveda de datos divide toda la información relacionada con un objeto en tres categorías, a diferencia del modelado clásico en tercera forma normal. Esta información se almacena estrictamente por separado entre sí. Las áreas funcionales se pueden asignar en la bóveda de datos en los llamados centros, enlaces y satélites:
- №1. Concentración
- Los centros son el corazón de un concepto comercial central, como el cliente, el vendedor, la venta o el producto. Se forma una tabla de centros en torno a una clave de negocio (nombre o ubicación de la tienda) cuando se ingresa una nueva instancia de esa clave comercial en el almacén de datos.
El Hub no contiene información descriptiva o FKS. Consiste solo en una clave de negocio con una secuencia creada en la tienda de identificadores o claves hash, una fecha de carga/sello de tiempo y una fuente de registro.
№ 2. Referencias
Los enlaces establecen relaciones entre las claves de negocios. Cada registro en un enlace modela una relación nm cualquier número de centros. Esto permite que el almacén de datos responda de manera flexible a los cambios en la lógica comercial de los sistemas de origen, como los cambios en los núcleos de relaciones. Al igual que un centro, un enlace no contiene ninguna información descriptiva. Consiste en los identificadores de secuencia de los centros que hace referencia, el identificador de secuencia generado por el repositorio, la fecha/hora de la carga y la fuente del registro.
№3. Satélites
Los satélites contienen información descriptiva (contexto) para una clave de negocio almacenada en un centro o una relación almacenada en una referencia. Los satélites operan sobre una base de «solo inserción», lo que significa que todo el historial de datos se almacena en el satélite. Múltiples satélites pueden describir una sola clave de negocio (o relación). Sin embargo, un satélite solo puede describir una clave (concentrador o enlace).
Fuente de la imagen: Carbidfisher
Cómo construir un modelo de bóveda de datos
La construcción de un modelo de bóveda de datos implica varios pasos, cada uno de los cuales es fundamental para garantizar la escalabilidad, la flexibilidad y la capacidad de satisfacer las necesidades comerciales:
№1. Definición de entidades y atributos
Defina los objetos comerciales y sus respectivos atributos. Esto implica trabajar en estrecha colaboración con los interesados comerciales para comprender sus requisitos y los datos que necesitan para recopilar. Una vez que se definan estos objetos y atributos, clasificarlos en centros, enlaces y satélites
№ 2. Definición de las relaciones de la entidad y la creación de enlaces
Una vez que se definen las entidades y los atributos, se definen las relaciones entre las entidades y se crean enlaces para representar esas relaciones. A cada enlace se le asigna una clave de negocio que define la relación entre las entidades. Luego se agregan satélites para capturar los atributos y relaciones de las entidades.
№3. Establecer reglas y estándares
Una vez que se crean los enlaces, se debe establecer un conjunto de reglas y estándares para modelar el almacén de datos para que el modelo sea flexible y pueda manejar los cambios con el tiempo. Estas reglas y estándares deben revisarse y actualizarse regularmente para garantizar que sigan siendo relevantes y alineados con las necesidades comerciales.
№ 4. Complete el modelo
Una vez que se ha creado el modelo, debe poblarse con datos utilizando el método de carga incremental. Implica cargar datos en centros, enlaces y satélites utilizando la carga delta. La carga delta asegura que solo se carguen cambios realizados en los datos, lo que reduce el tiempo y los recursos necesarios para la integración de datos.
№ 5. Prueba y valida el modelo
Finalmente, el modelo debe ser probado y validado para garantizar que cumpla con los requisitos comerciales y sea lo suficientemente escalable y flexible para cambios futuros. Se deben realizar un mantenimiento y actualizaciones regulares para garantizar que el modelo esté alineado con las necesidades comerciales y continúe proporcionando una vista unificada de los datos.
Recursos de capacitación en bóveda de datos
Dominar datos de datos puede proporcionar habilidades y conocimientos valiosos que son muy buscados en las industrias centradas en datos actuales. Aquí hay una lista completa de recursos, incluidos cursos y libros, que pueden ayudarlo a aprender las complejidades de la bóveda de datos:
№1. Modelado de bóveda de datos con Data Vault 2. 0
Este curso de Udemy es una introducción integral al enfoque de modelado Data Vault 2. 0, gestión de proyectos ágiles e integración de big data. El curso cubre los fundamentos de Data Vault 2. 0, incluidas su arquitectura y niveles, tiendas de negocios e información, y técnicas de modelado avanzado.
Le enseñará cómo diseñar un modelo de bóveda de datos desde cero, convertir modelos tradicionales como 3NF y modelos multidimensionales en bóveda de datos y comprender los principios del modelado multidimensional en la bóveda de datos. El curso requiere conocimientos básicos de bases de datos y fundamentos SQL.
Con una alta calificación de 4. 4 de 5 y más de 1, 700 revisiones, este curso más vendido es adecuado para cualquier persona que quiera construir una base sólida para Data Vault 2. 0 e integración de Big Data.
№ 2. El modelado de bóveda de datos se explica con la ayuda de un caso de uso
Este curso de Udemy tiene como objetivo enseñarle cómo crear un modelo de almacén de datos utilizando un ejemplo de negocio práctico. Sirve como una guía para principiantes para el modelado del almacén de datos y cubre conceptos clave, como casos de uso relevantes para modelos de almacén de datos, las limitaciones del modelado OLAP tradicional y un enfoque sistemático para construir un modelo de almacén de datos. El curso es accesible para personas con un mínimo conocimiento de la base de datos.
№3. Guru de bóveda de datos: una guía práctica
Data Vault Guru del Sr. Patrick Kuba es una guía detallada de la metodología de almacén de datos que ofrece una oportunidad única para modelar un almacén de datos empresarial utilizando principios de automatización similares a los utilizados en la entrega de software.
El libro proporciona una visión general de la arquitectura actual, seguida de una guía detallada para crear un modelo de datos flexible que se adapte a los cambios en el almacén de datos empresariales.
Además, el libro extiende la metodología del almacén de datos para proporcionar corrección automatizada de la línea de tiempo, senderos de auditoría, gestión de metadatos e integración con herramientas de entrega ágiles.
№ 4. Creación de un almacén de datos escalable utilizando Data Vault 2. 0
Este libro proporciona a los lectores una guía integral para construir un almacén de datos escalable de principio a fin utilizando la metodología Data Vault 2. 0.
Este libro cubre todos los aspectos principales de la construcción de un almacén de datos escalable, incluida la metodología de modelado de bóveda de datos diseñada para evitar fallas típicas de almacenamiento de datos.
El libro contiene muchos ejemplos para ayudar a los lectores a comprender claramente los conceptos. Con ideas prácticas y ejemplos del mundo real, este libro es un recurso esencial para cualquier persona interesada en el almacenamiento de datos.
№ 5. El elefante en el refrigerador: instrucciones paso a paso para el almacén de datos
«The Elephant in the Fridge» de John Giles es una guía práctica diseñada para ayudar a los lectores a tener éxito en la bóveda de datos de negocios en negocios.
El libro se centra en la importancia de la ontología empresarial y el modelado de conceptos comerciales, y proporciona instrucciones paso a paso sobre cómo aplicar estos conceptos para crear un modelo de datos robusto.
Con consejos prácticos y plantillas de muestra, el autor ofrece explicaciones claras y sencillas de temas complejos, lo que convierte al libro en una gran guía para aquellos que no están familiarizados con Data Vault.
Ultimas palabras
Data Vault representa el futuro del almacenamiento de datos y ofrece a las empresas importantes ventajas en términos de flexibilidad, escalabilidad y eficiencia. Es particularmente adecuado para empresas que necesitan cargar grandes cantidades de datos rápidamente, así como para aquellas que desean desarrollar de manera flexible sus aplicaciones de inteligencia empresarial.
Además, las empresas con una arquitectura en silos existentes pueden beneficiarse enormemente de la implementación de un almacén de datos básico de alto nivel mediante Data Vault.
También le puede interesar aprender sobre el pedigrí de datos.
toadmin. ru