BigQuery Omni

BigQuery Omni

BigQuery Omni ofrece análisis eficientes en múltiples nubes sin necesidad de mover datos.

Información básica

Google BigQuery Omni es una solución de análisis flexible y multi-nube que extiende las capacidades de BigQuery de Google Cloud a datos que residen en otras nubes públicas.

  • Modelo: BigQuery Omni
  • Versión: Actualizaciones de servicio continuas.
  • Fecha de lanzamiento: Presentado como alfa privada en julio de 2020 para AWS S3. Disponible de forma general para AWS y Azure a finales de 2021.
  • Requisitos mínimos: Como servicio en la nube totalmente administrado, BigQuery Omni no tiene requisitos de hardware específicos. Las herramientas del lado del cliente (Cloud SDK, bq CLI, controladores ODBC/JDBC, conectores de BI) requieren un sistema operativo compatible, un navegador moderno, conexión a internet estable y suficiente CPU/RAM para operaciones locales.
  • Sistemas operativos compatibles: No aplicable al servicio en sí. Las herramientas del lado del cliente son compatibles con los sistemas operativos más comunes.
  • Última versión estable: BigQuery Omni es una oferta sin servidor que se actualiza continuamente.
  • Fecha de fin de soporte: No está definida explícitamente para un servicio en la nube continuo; el soporte se alinea con el ciclo de vida general del servicio BigQuery de Google Cloud.
  • Fecha de fin de vida útil: No definida explícitamente para un servicio en la nube continuo.
  • Fecha de caducidad de la actualización automática: Las actualizaciones son gestionadas por Google Cloud como parte del modelo sin servidor.
  • Tipo de licencia: Pago por uso, según el modelo de precios de BigQuery, que incluye capacidad de cómputo y almacenamiento. Los cargos se basan en la cantidad de datos procesados y la región, con costos adicionales por transferencia de datos entre nubes y almacenamiento administrado.
  • Modelo de implementación: Plataforma de análisis sin servidor y multi-nube. Ejecuta el motor de consultas BigQuery (Dremel) en otras nubes públicas (AWS y Azure) dentro de clústeres Anthos gestionados por Google.

Requisitos técnicos

BigQuery Omni es un servicio sin servidor y totalmente administrado, lo que significa que Google gestiona la infraestructura subyacente. Por lo tanto, los requisitos técnicos se refieren principalmente al acceso e integración del lado del cliente.

  • RAM: RAM suficiente para las herramientas y aplicaciones locales del lado del cliente que se conectan a BigQuery Omni.
  • Procesador: Potencia de procesamiento adecuada para herramientas y aplicaciones locales del lado del cliente.
  • Almacenamiento: Almacenamiento local para herramientas del lado del cliente, archivos temporales y resultados de consultas si se descargan localmente. BigQuery Omni almacena los datos en el almacenamiento del proveedor de nube correspondiente (por ejemplo, AWS S3, Azure Blob Storage).
  • Pantalla: Resolución de pantalla estándar para acceder a la consola de Google Cloud.
  • Puertos: Puertos de red estándar para la comunicación HTTPS con los servicios de Google Cloud.
  • Sistema operativo: Sistemas operativos compatibles para ejecutar herramientas y aplicaciones del lado del cliente.

Análisis de los requisitos técnicos

La naturaleza sin servidor de BigQuery Omni reduce significativamente la carga técnica para los usuarios, ya que Google gestiona todos los recursos informáticos y la infraestructura. Los usuarios solo necesitan asegurarse de que sus entornos locales cumplan los requisitos básicos para ejecutar aplicaciones cliente y acceder a la consola de Google Cloud. Este enfoque elimina la necesidad de que los usuarios aprovisionen o gestionen clústeres, lo que simplifica los costes operativos.

Soporte y compatibilidad

  • Última versión: BigQuery Omni es un servicio en la nube en constante evolución, que siempre ejecuta la última versión.
  • Compatibilidad con sistemas operativos: El servicio en sí es independiente del sistema operativo. Las herramientas y API del lado del cliente son compatibles con los sistemas operativos más comunes.
  • Fecha de fin de soporte: No aplicable a un servicio en la nube continuo. El soporte continúa como parte de la oferta BigQuery de Google Cloud.
  • Localización: BigQuery Omni procesa las consultas en la misma región donde reside el conjunto de datos en AWS o Azure. Las regiones compatibles incluyen AWS US East (Norte de Virginia), AWS Oregon, AWS Seoul, AWS Ireland y Azure North Virginia.
  • Controladores disponibles: Admite las API estándar de BigQuery, bibliotecas de cliente, la herramienta de línea de comandos bq y controladores ODBC/JDBC para la conectividad.

Análisis del estado general de soporte y compatibilidad

BigQuery Omni ofrece soporte y compatibilidad robustos gracias a su integración perfecta con el ecosistema BigQuery existente. Permite a los usuarios aprovechar las herramientas, las API y la sintaxis SQL de BigQuery en múltiples entornos de nube. La compatibilidad se extiende a diversos formatos de datos, incluidos Avro, CSV, JSON, ORC y Parquet. La capacidad de consultar datos en AWS S3 y Azure Blob Storage sin necesidad de moverlos es una característica clave de compatibilidad, que reduce la complejidad y los costos de salida de datos. La administración de Google de los clústeres Anthos subyacentes garantiza una orquestación, implementación y seguridad consistentes.

Estado de seguridad

  • Características de seguridad:
    • Gobernanza unificada con los controles de seguridad de BigQuery, incluyendo cifrado, controles de acceso y registros de auditoría.
    • Los datos permanecen en la suscripción de AWS o Azure del cliente, no se transfieren a Google Cloud.
    • Los controles de servicio de VPC pueden restringir el acceso de BigQuery Omni a nubes externas.
    • Seguridad a nivel de fila y columna para un control de acceso a datos preciso.
    • Enmascaramiento de datos para información confidencial.
  • Vulnerabilidades conocidas: No se han destacado públicamente vulnerabilidades específicas conocidas para BigQuery Omni más allá de las mejores prácticas generales de seguridad en la nube.
  • Estado en la lista negra: No aplicable.
  • Certificaciones: Hereda las certificaciones de Google Cloud y BigQuery, que cumplen con diversos estándares de la industria y marcos de cumplimiento.
  • Compatibilidad con cifrado:
    • Los datos se cifran de forma predeterminada (AES-256 para los datos almacenados, TLS para los datos en tránsito).
    • Admite claves de cifrado gestionadas por el cliente (CMEK) y claves de cifrado proporcionadas por el cliente (CSEK).
    • Cifrado a nivel de columna mediante los algoritmos AES-GCM y AES-SIV, integrado con el Servicio de gestión de claves en la nube (KMS).
  • Métodos de autenticación:
    • Roles estándar de AWS IAM o entidades de seguridad de Azure Active Directory para acceder a los datos en las suscripciones respectivas.
    • Cuentas de servicio de Google Cloud y credenciales predeterminadas de la aplicación (ADC) para la autenticación de la API de BigQuery.
    • OAuth 2.0 para acceso programático.
  • Recomendaciones generales: Implemente el acceso con privilegios mínimos, utilice la seguridad a nivel de fila y columna, configure los controles de servicio de VPC y gestione las claves de cifrado de forma eficaz.

Análisis de la calificación general de seguridad

BigQuery Omni aprovecha el sólido marco de seguridad de Google Cloud y BigQuery, proporcionando un alto nivel de protección de datos. Su principal fortaleza reside en su enfoque de "procesamiento a datos", donde los datos sin procesar nunca salen del entorno AWS o Azure del cliente, lo que reduce significativamente los riesgos de transferencia de datos y los costos de salida. Los controles de acceso granulares, que incluyen seguridad a nivel de fila y columna, junto con opciones de cifrado integrales (predeterminado, CMEK, CSEK y a nivel de columna) y registros de auditoría, garantizan una sólida gobernanza de datos y el cumplimiento normativo. Los mecanismos de autenticación son estándar y seguros, y se integran con los proveedores de identidad en la nube existentes. En resumen, BigQuery Omni ofrece una postura de seguridad de nivel empresarial para el análisis en múltiples nubes.

Rendimiento y puntos de referencia

  • Puntuaciones de referencia: No se encuentran fácilmente disponibles puntuaciones de referencia públicas específicas para BigQuery Omni, pero hereda la reputación de BigQuery en cuanto a análisis rápidos y escalables.
  • Métricas de rendimiento en el mundo real:
    • Elimina la transferencia de datos entre nubes, reduciendo la latencia y los costes de salida.
    • Las consultas se ejecutan en la misma región donde residen los datos, optimizando así el rendimiento.
    • Aprovecha el rendimiento a escala de petabytes de BigQuery para consultas complejas.
    • El almacenamiento en caché de metadatos mejora el rendimiento de las consultas.
    • Las vistas materializadas entre nubes reducen la transferencia de datos al mover únicamente los cambios incrementales.
  • Consumo de energía: No es directamente medible por los usuarios finales, ya que se trata de un servicio en la nube gestionado. Google gestiona la eficiencia energética de sus centros de datos.
  • Huella de carbono: No es directamente medible por los usuarios finales. Google Cloud aspira a lograr operaciones neutras en carbono.
  • Comparación con activos similares: Entre sus competidores se encuentran AWS Redshift Spectrum, Azure Synapse Analytics y Snowflake. El factor diferenciador de BigQuery Omni reside en su capacidad para ejecutar el motor de consultas directamente en otras nubes, evitando así la migración de datos.

Análisis del estado general del desempeño

El rendimiento de BigQuery Omni se debe principalmente a su arquitectura única que separa el procesamiento del almacenamiento y lleva el motor de procesamiento (Dremel) a la ubicación de los datos en AWS o Azure. Esto elimina la necesidad de costosas y lentas transferencias de datos entre nubes, un importante cuello de botella para el rendimiento de la analítica tradicional en múltiples nubes. El uso de clústeres Anthos gestionados por Google garantiza una ejecución de consultas optimizada y escalable. Funcionalidades como el almacenamiento en caché de metadatos y las vistas materializadas entre nubes mejoran aún más la velocidad y la eficiencia de las consultas, especialmente para datos a los que se accede con frecuencia o que se resumen. Si bien no se publican ampliamente cifras de referencia directas, el diseño arquitectónico apunta a importantes ventajas de rendimiento en escenarios de múltiples nubes al minimizar el movimiento de datos y aprovechar la escalabilidad inherente de BigQuery.

Reseñas y comentarios de los usuarios

  • Fortalezas:
    • Compatibilidad con múltiples nubes para AWS y Azure.
    • Análisis de datos fluido sin necesidad de mover datos, lo que reduce los costes y la complejidad de la salida de datos.
    • Utiliza SQL estándar y la interfaz familiar de BigQuery.
    • Experiencia analítica unificada en todas las nubes.
    • La arquitectura sin servidor elimina la gestión de la infraestructura.
    • Sólidas medidas de seguridad, incluyendo gobernanza de datos y cifrado.
    • Capacidad para combinar datos de diferentes plataformas en la nube.
  • Debilidades:
    • Posibles problemas de latencia y dependencia de la conectividad de red para la comunicación del plano de control.
    • Limitaciones en ciertas funciones de BigQuery (por ejemplo, la API de almacenamiento de BigQuery no está disponible en las regiones Omni, no se admiten instrucciones DML ni UDF de JavaScript).
    • No todas las ediciones de BigQuery admiten el trabajo con datos en regiones Omni (las ediciones Standard y Enterprise Plus no son compatibles).
    • La configuración inicial requiere una configuración cuidadosa de los roles y conexiones de IAM tanto en Google Cloud como en la nube externa.
  • Casos de uso recomendados:
    • Analizar datos distribuidos en múltiples nubes públicas (AWS, Azure, Google Cloud).
    • Eliminar los silos de datos para obtener información unificada.
    • Análisis de marketing que combina datos de diferentes fuentes en la nube.
    • Análisis geoespacial donde los datos residen en diversas nubes.
    • Organizaciones que buscan evitar la dependencia de un solo proveedor y aprovechar los mejores servicios de diferentes proveedores.

Resumen

Google BigQuery Omni es una solución transformadora de análisis multicloud diseñada para abordar los desafíos de la proliferación de datos y los costos de salida en entornos híbridos y multicloud. Extiende el potente motor de consultas sin servidor de BigQuery a los datos que residen en Amazon Web Services (AWS) S3 y Azure Blob Storage, lo que permite a los usuarios realizar análisis sin necesidad de mover ni copiar físicamente los datos a Google Cloud.

Ventajas: La principal ventaja de BigQuery Omni reside en su capacidad para proporcionar una experiencia de análisis unificada en múltiples nubes mediante las conocidas API de SQL y BigQuery. Al ejecutar el procesamiento directamente donde residen los datos, reduce significativamente los costos de transferencia y la latencia, ofreciendo una solución rentable y eficiente para el análisis en la nube híbrida. Hereda el sólido modelo de seguridad de BigQuery, que incluye cifrado predeterminado, claves administradas por el cliente, controles de acceso granulares y registros de auditoría, lo que garantiza la gobernanza y el cumplimiento de los datos. La arquitectura sin servidor simplifica las operaciones, ya que Google administra toda la infraestructura subyacente.

Limitaciones: Si bien BigQuery Omni es potente, presenta algunas limitaciones. Ciertas funciones avanzadas de BigQuery, como la API de almacenamiento y las instrucciones DML, no son totalmente compatibles con las regiones Omni. El plano de control puede depender de la conectividad de red, lo que podría generar latencia. Además, algunas ediciones de BigQuery no son compatibles con las regiones Omni. La configuración inicial requiere una configuración minuciosa de los roles de IAM y las conexiones entre los proveedores de nube.

Recomendaciones: BigQuery Omni es altamente recomendable para empresas que operan en entornos multi-nube y necesitan analizar grandes conjuntos de datos distribuidos en Google Cloud, AWS y Azure. Resulta especialmente beneficioso para casos de uso que requieren información unificada a partir de diversas fuentes de datos, como análisis de marketing, análisis geoespacial y la eliminación de silos de datos. Las organizaciones deben considerar cuidadosamente las limitaciones específicas de las funciones y asegurarse de que sus estrategias de gobernanza de datos se alineen con las capacidades de Omni, en particular en lo que respecta a la residencia de datos y los controles de acceso. Es fundamental optimizar los lagos de datos para el rendimiento de las consultas y así maximizar los beneficios de Omni.

La información proporcionada se basa en datos de dominio público y puede variar según la configuración específica del dispositivo. Para obtener información actualizada, consulte los recursos oficiales del fabricante.