Databricks Unity Catalog
Unity Catalog mejora la gobernanza y la seguridad de los datos para Databricks.
Información básica
- Modelo: Catálogo de Unity
- Versión: Se actualiza continuamente como un servicio dentro de la plataforma Databricks Data Intelligence.
- Fecha de lanzamiento: 26 de mayo de 2021.
- Requisitos mínimos: Requiere un espacio de trabajo de Databricks en el plan Premium o superior.
- Sistemas operativos compatibles: No se aplica directamente a Unity Catalog, pero funciona dentro del entorno de Databricks. Es compatible con clústeres que ejecutan Databricks Runtime 11.3 LTS o superior.
- Última versión estable: Como servicio gestionado, Unity Catalog no tiene lanzamientos de versiones tradicionales; recibe actualizaciones continuas.
- Fecha de fin de soporte: No aplicable; evoluciona con la plataforma Databricks.
- Fecha de fin de vida útil: No aplicable; evoluciona con la plataforma Databricks.
- Fecha de caducidad de la actualización automática: No aplicable; se trata de un servicio gestionado que se actualiza continuamente.
- Tipo de licencia: Incluida en los planes Databricks Premium y Enterprise; no requiere licencia adicional. La API de Unity Catalog y la implementación del servidor se liberaron como código abierto el 12 de junio de 2024, bajo una licencia Apache 2.0.
- Modelo de implementación: Nativo de la nube, integrado en la plataforma Databricks Data Intelligence, disponible en AWS, Azure y Google Cloud.
Requisitos técnicos
Databricks Unity Catalog funciona como una capa de gobernanza dentro de la plataforma Databricks Lakehouse, lo que significa que sus requisitos técnicos están principalmente vinculados a los recursos informáticos subyacentes de Databricks y a la infraestructura en la nube.
- RAM: Depende de la configuración del clúster de Databricks o del almacén de datos SQL utilizado para acceder a los datos del catálogo de Unity.
- Procesador: Depende de la configuración del clúster de Databricks o del almacén de datos SQL.
- Almacenamiento: Requiere almacenamiento en la nube (por ejemplo, Azure Data Lake Storage Gen2) para tablas y volúmenes administrados.
- Visualización: El acceso se realiza normalmente a través de la interfaz de usuario de Databricks Workspace basada en web; se aplican los requisitos de visualización estándar para aplicaciones web.
- Puertos: Conectividad de red estándar a servicios en la nube y puntos de conexión de Databricks.
- Sistema operativo: Se requiere Databricks Runtime 11.3 LTS o superior para la compatibilidad total con Unity Catalog en clústeres.
Análisis de los requisitos técnicos
Unity Catalog es un servicio, por lo que no tiene requisitos de hardware directos como RAM o procesador. En cambio, depende de los recursos de cómputo aprovisionados en el entorno de Databricks. Estos recursos (clústeres y almacenes de datos SQL) deben configurarse con modos de acceso específicos, como Estándar o Dedicado (anteriormente Usuario Único), para garantizar una interacción segura con Unity Catalog. El almacenamiento en la nube subyacente es un componente crítico para la persistencia de datos, especialmente para tablas y volúmenes administrados. Los requisitos se ajustan al uso de las plataformas de datos en la nube modernas, priorizando la compatibilidad con las versiones de Databricks Runtime para una funcionalidad óptima.
Soporte y compatibilidad
- Última versión: Unity Catalog es un servicio en constante evolución, con nuevas funciones y mejoras que se integran regularmente en la plataforma Databricks.
- Compatibilidad con sistemas operativos: Funciona dentro del ecosistema de Databricks, que admite diversos sistemas operativos cliente. Unity Catalog requiere Databricks Runtime 11.3 LTS o superior para una compatibilidad total con sus funciones.
- Fecha de fin de soporte: No aplicable; el soporte es continuo como parte de la plataforma Databricks.
- Localización: La plataforma Databricks generalmente admite varios idiomas, lo que se extiende a la interfaz y la documentación de Unity Catalog.
- Controladores disponibles: Se integra con una amplia gama de herramientas y motores mediante API abiertas. Delta Sharing, un protocolo abierto, permite el consumo de datos por plataformas como Power BI, Tableau, Apache Spark, pandas y Java.
Análisis del estado general de soporte y compatibilidad
Databricks Unity Catalog ofrece soporte sólido y amplia compatibilidad al ser parte integral de la plataforma Databricks Data Intelligence. Su modelo de desarrollo continuo garantiza actualizaciones constantes de funciones y parches de seguridad. La compatibilidad depende principalmente de las versiones de Databricks Runtime; se recomienda la versión 11.3 LTS o superior para una funcionalidad completa. El enfoque de API abierta y la compatibilidad con Delta Sharing facilitan una amplia interoperabilidad con diversas herramientas de análisis de datos e inteligencia empresarial, evitando la dependencia de un solo proveedor. Esta estrategia garantiza que Unity Catalog siga siendo una solución de gobernanza flexible y con buen soporte en diversos ecosistemas de datos.
Estado de seguridad
- Características de seguridad:
- Control de acceso centralizado, auditoría, trazabilidad y control de calidad.
- Modelo de seguridad compatible con los estándares basado en ANSI SQL para la concesión de permisos.
- Control de acceso granular a nivel de catálogo, esquema, tabla, columna y fila.
- Enmascaramiento dinámico de datos para proteger la información confidencial sin duplicación de datos.
- Auditoría integrada y seguimiento de linaje para acciones a nivel de usuario y flujo de datos.
- Intercambio seguro de datos mediante Delta Sharing, un protocolo abierto.
- Compatibilidad con ubicaciones de almacenamiento gestionadas y ubicaciones externas para controlar el acceso al almacenamiento en la nube.
- Vulnerabilidades conocidas: No se destacan públicamente "vulnerabilidades conocidas" específicas; el enfoque está en un diseño seguro por defecto y en mejoras de seguridad continuas.
- Estado en la lista negra: No aplicable.
- Certificaciones: La certificación de Administrador de la plataforma Databricks abarca la gobernanza y la seguridad de Unity Catalog. Unity Catalog también ayuda a las organizaciones a lograr y demostrar el cumplimiento normativo.
- Compatibilidad con cifrado:
- Cifrado de datos en reposo (por ejemplo, S3 con KMS, claves administradas por el cliente para servicios administrados y almacenamiento de espacio de trabajo).
- Cifrado de datos en tránsito (por ejemplo, TLS 1.3 entre nodos de trabajo del clúster).
- Cifrado de sobres para múltiples capas de confidencialidad de datos.
- Funciones definidas por el usuario (UDF) de Python para el descifrado avanzado y sobre la marcha basado en el acceso del usuario.
- Métodos de autenticación:
- Tokens de acceso personal (PAT).
- Autenticación OAuth de máquina a máquina (M2M).
- Identidades gestionadas (asignadas por el sistema).
- Autenticación de la entidad de servicio.
- Recomendaciones generales:
- Utilice políticas de computación para garantizar que los clústeres cumplan con el catálogo de Unity (modos de acceso estándar o dedicado).
- Evite el acceso externo directo a tablas externas para mantener la gobernanza de Unity Catalog, favoreciendo las tablas administradas y el uso compartido delta para la distribución de datos.
- Implemente el principio de mínimo privilegio mediante el sistema de permisos granulares de Unity Catalog.
- Gestione de forma segura la información confidencial, como las claves, utilizando ámbitos secretos respaldados por Databricks.
Análisis de la calificación de seguridad general
Databricks Unity Catalog ofrece un marco de seguridad robusto e integral, diseñado para abordar los desafíos actuales de la gobernanza de datos. Su seguridad es inherente, aplicando estrictos controles de acceso y ofreciendo permisos granulares hasta el nivel de fila y columna. La inclusión del enmascaramiento dinámico de datos, la auditoría integrada y el linaje de extremo a extremo garantizan la transparencia y el cumplimiento normativo. Sus sólidas capacidades de cifrado para datos en reposo y en tránsito, junto con métodos de autenticación flexibles, refuerzan aún más su seguridad. Si bien ningún sistema es completamente inmune a las amenazas, el desarrollo continuo de Unity Catalog, su integración con funciones de seguridad en la nube y su énfasis en las mejores prácticas, como el principio de mínimo privilegio, contribuyen a una alta calificación de seguridad general.
Rendimiento y puntos de referencia
- Puntuaciones de referencia: Las puntuaciones de referencia específicas no están fácilmente disponibles en los resultados de búsqueda pública.
- Métricas de rendimiento en el mundo real:
- Mejora el rendimiento de las consultas mediante una optimización inteligente basada en patrones de uso.
- Reduce los costes de almacenamiento optimizando la disposición de los datos.
- Elimina las tareas de mantenimiento rutinarias gracias a funciones como la compactación automática, la agrupación y la aspiración.
- La optimización predictiva optimiza automáticamente las tablas administradas por Unity Catalog para mejorar el rendimiento de las consultas y reducir los costos de almacenamiento.
- Optimización automática del tamaño de archivos mediante IA, reduciendo la fragmentación de archivos y la sobrecarga de escaneo.
- Agrupamiento automático de datos basado en patrones de consulta observados.
- Recopilación automática de estadísticas para mejorar el rendimiento de las consultas mediante una omisión de datos más inteligente y una planificación de uniones más precisa.
- Consumo de energía: No hay métricas específicas de consumo de energía disponibles públicamente para Unity Catalog como servicio.
- Huella de carbono: No hay métricas específicas de huella de carbono disponibles públicamente para Unity Catalog como servicio.
- Comparación con activos similares:
- A diferencia de los catálogos tradicionales limitados a datos estructurados o formatos específicos, Unity Catalog unifica el descubrimiento, el acceso, el linaje, la monitorización, la auditoría, la semántica y el intercambio en todos los datos y activos de IA en formatos abiertos (Delta, Apache Iceberg, Hudi, Parquet, CSV).
- Simplifica la gobernanza de datos en comparación con la gestión de herramientas dispares o la dependencia exclusiva de los permisos a nivel de archivo del proveedor de la nube.
- Ofrece un modelo de seguridad más integrado y granular en comparación con los metastores tradicionales de Hive.
Análisis del estado general del rendimiento
Databricks Unity Catalog mejora significativamente el rendimiento de las operaciones de datos en la plataforma Lakehouse, principalmente gracias a sus capacidades de optimización inteligente. Automatiza tareas críticas de ajuste de rendimiento, como la compactación de archivos, la agrupación de datos y la recopilación de estadísticas, lo que se traduce directamente en una ejecución de consultas más rápida y una menor sobrecarga de almacenamiento. La función de "Optimización Predictiva" utiliza IA para adaptarse a los patrones de carga de trabajo, garantizando una mejora continua del rendimiento sin intervención manual. Si bien no se proporcionan puntuaciones de referencia directas para Unity Catalog, su diseño arquitectónico y sus funciones de optimización integradas contribuyen a una solución de gestión y gobernanza de datos de alto rendimiento, que supera los enfoques tradicionales al simplificar las operaciones y reducir los costos.
Reseñas y comentarios de los usuarios
Los comentarios de los usuarios destacan el impacto transformador de Unity Catalog en la gobernanza y gestión de datos dentro del ecosistema de Databricks.
- Fortalezas:
- Gobernanza unificada: Proporciona un panel único para gestionar el acceso, la auditoría y el linaje de todos los datos y activos de IA, simplificando las plataformas de datos complejas.
- Seguridad mejorada: Ofrece un control de acceso granular (a nivel de fila, a nivel de columna, enmascaramiento dinámico) y una auditoría robusta, crucial para los datos confidenciales y el cumplimiento normativo.
- Ahorro de costes y eficiencia: Reduce los gastos operativos, optimiza los costes de almacenamiento y computación y agiliza el intercambio de datos, lo que genera importantes ahorros.
- Interoperabilidad y apertura: Admite varios formatos de datos abiertos (Delta, Iceberg, Parquet) y se integra con un amplio ecosistema de herramientas y motores, evitando la dependencia de un proveedor específico.
- Descubrimiento y linaje de datos: Facilita el descubrimiento de datos mediante el etiquetado y la búsqueda, y proporciona un linaje completo de extremo a extremo para el análisis de impacto y la resolución de problemas.
- Gestión de modelos de aprendizaje automático: Extiende la gobernanza a los modelos de aprendizaje automático, simplificando el control de versiones, el linaje de datos y la implementación.
- Debilidades:
- Dependencias de la versión de tiempo de ejecución: Algunas características o compatibilidad con lenguajes (por ejemplo, cargas de trabajo de R, UDF de Python, clones superficiales) tienen limitaciones o requisitos específicos en versiones anteriores de Databricks Runtime.
- Administración de grupos: Los grupos a nivel de espacio de trabajo no se pueden usar directamente en las declaraciones GRANT del catálogo de Unity, lo que requiere una administración de grupos a nivel de cuenta para mantener la coherencia.
- Brechas de funcionalidades (históricas): La agrupación no es compatible con las tablas del catálogo de Unity.
- Complejidad de la migración: La transición desde registros de modelos de espacio de trabajo antiguos o metastores de Hive a Unity Catalog requiere una planificación cuidadosa y una comprensión de los cambios.
- Casos de uso recomendados:
- Gobernanza y seguridad de datos centralizadas para lagos de datos y almacenes de datos.
- Gestionar y proteger datos confidenciales, incluyendo información personal identificable (PII), con controles de acceso granulares.
- Optimización de la gestión del ciclo de vida de los modelos de aprendizaje automático, incluyendo el control de versiones, el linaje y el despliegue.
- Facilitar el intercambio seguro de datos interna y externamente mediante Delta Sharing.
- Lograr el cumplimiento normativo y simplificar los procesos de auditoría.
- Optimización de costes mediante la gestión automatizada de datos y la optimización del rendimiento.
- Unificar la gobernanza de datos estructurados, no estructurados y activos de IA en múltiples entornos de nube.
Resumen
Databricks Unity Catalog es un componente fundamental de la plataforma Databricks Data Intelligence, que ofrece una solución de gobernanza unificada y abierta para todos los datos y activos de IA. Lanzado en mayo de 2021, simplifica la gestión de datos al centralizar el control de acceso, la auditoría, el linaje y el descubrimiento de datos en múltiples espacios de trabajo de Databricks y entornos en la nube. Funciona como un servicio con actualizaciones continuas, integrado en los planes Databricks Premium y Enterprise, y su API principal y la implementación del servidor son de código abierto bajo la licencia Apache 2.0 desde junio de 2024.
La fortaleza de este activo reside en su modelo de seguridad integral, que proporciona un control de acceso granular hasta el nivel de fila y columna, enmascaramiento dinámico de datos y sólidas capacidades de auditoría basadas en los estándares ANSI SQL. Admite diversos métodos de autenticación, como tokens de acceso personal, OAuth, identidades administradas y entidades de servicio, lo que garantiza una integración segura. El cifrado de datos en reposo y en tránsito, junto con técnicas avanzadas como el cifrado de sobres y las funciones definidas por el usuario (UDF) de Python para el descifrado, refuerza aún más su seguridad. El rendimiento se ve significativamente mejorado gracias a optimizaciones inteligentes como la compactación automática de archivos, la agrupación de datos y la optimización predictiva, lo que se traduce en una mayor velocidad de consulta y una reducción de los costos de almacenamiento.
Sin embargo, Unity Catalog presenta algunas consideraciones. La compatibilidad con versiones anteriores de Databricks Runtime puede introducir limitaciones en ciertas funcionalidades, como las cargas de trabajo de R o las UDF de Python. La transición de grupos a nivel de espacio de trabajo a grupos a nivel de cuenta para lograr permisos consistentes también puede requerir ajustes. A pesar de esto, su capacidad para unificar la gobernanza en diversos formatos de datos (Delta, Iceberg, Parquet) y recursos de IA, junto con sus API abiertas y sus capacidades de uso compartido de Delta, lo posicionan como una solución altamente compatible e interoperable.
En esencia, Databricks Unity Catalog es una solución potente y de nivel empresarial para la gobernanza de datos moderna, especialmente beneficiosa para organizaciones que buscan centralizar el control, mejorar la seguridad, garantizar el cumplimiento normativo y optimizar el rendimiento de sus iniciativas de datos e IA en entornos multicloud. Su continua evolución y su sólido conjunto de funciones la convierten en una herramienta fundamental para crear data lakes confiables y eficientes.
La información proporcionada se basa en datos de dominio público y puede variar según la configuración específica del dispositivo. Para obtener información actualizada, consulte los recursos oficiales del fabricante.
