Cloudera Machine Learning

Cloudera Machine Learning

Cloudera Machine Learning destaca en la gestión escalable del ciclo de vida del aprendizaje automático.

Información básica

Cloudera Machine Learning (CML) es una plataforma diseñada para el ciclo de vida completo del aprendizaje automático, desde la ingeniería de datos hasta la implementación y la gobernanza de modelos. Es un servicio basado en Kubernetes que forma parte de Cloudera Data Platform (CDP). CML proporciona un espacio unificado para soluciones colaborativas de ciencia de datos, aprovechando herramientas nativas relevantes para el aprendizaje automático. Está disponible para su implementación en entornos de nube privada y pública, y admite escenarios híbridos.

  • Modelo: Cloudera Machine Learning (CML)
  • Versión: ML Runtimes Versión 2024.02.1 (la más reciente observada en los resultados de búsqueda de paquetes preinstalados)
  • Fecha de lanzamiento: Se actualiza continuamente como parte de Cloudera Data Platform. Las fechas de lanzamiento específicas para las versiones principales no están disponibles de forma consistente, pero los entornos de ejecución de aprendizaje automático tienen versiones (por ejemplo, 2023.12.1, 2023.08.2, 2024.02.1).
  • Requisitos mínimos: Varían considerablemente según el modelo de implementación (ECS u OCP) y las cargas de trabajo previstas de los usuarios. Generalmente requieren una cantidad sustancial de CPU, memoria y almacenamiento.
  • Sistemas operativos compatibles: Se ejecuta principalmente en Red Hat OpenShift Container Platform (OCP) versiones 4.10 o 4.8 (para actualizaciones a 1.5.0) y Embedded Container Service (ECS).
  • Última versión estable: ML Runtimes versión 2024.02.1 (según los últimos fragmentos de documentación disponibles).
  • Fecha de fin de soporte: Las fechas de fin de soporte (EoS) para las variantes de tiempo de ejecución de ML suelen ser 6 meses después de sus fechas de fin de mantenimiento (EoM), lo que coincide con el soporte de seguridad upstream del kernel de la variante. Para los complementos de tiempo de ejecución de Spark, la certificación para Spark 2.4, 3.2 y 3.3 finaliza con versiones de Data Lakes en la nube pública superiores a la 7.2.18, y se recomienda a los usuarios migrar a Spark 3.5 para obtener soporte a largo plazo más allá de la versión 7.2.18.
  • Fecha de fin de vida útil: No se indica explícitamente como una fecha única para todo el producto, sino que está vinculada al ciclo de vida de soporte de sus componentes subyacentes y variantes de tiempo de ejecución.
  • Fecha de caducidad de la actualización automática: No especificada.
  • Tipo de licencia: Comercial, probablemente basada en suscripción como parte de la plataforma de datos Cloudera.
  • Modelo de implementación: Local (a través de Embedded Container Service o OpenShift Container Platform) y en la nube (Data Lakes en la nube pública), compatible con entornos híbridos y multi-nube.

Requisitos técnicos

Los requisitos técnicos de Cloudera Machine Learning son considerables, lo que refleja su función como plataforma empresarial para el procesamiento de datos a gran escala y el aprendizaje automático. Estos requisitos varían según el método de implementación (Embedded Container Service o OpenShift Container Platform) y la escala de las cargas de trabajo.

  • RAM:
    • Mínimo por espacio de trabajo: 128 GB.
    • Recomendación por espacio de trabajo: 256 GB.
    • Carga de trabajo adicional por usuario concurrente: mínimo 2 GB, recomendado de 4 a 64 GB (dependiendo de los casos de uso).
  • Procesador:
    • Mínimo por espacio de trabajo: 32 núcleos.
    • Recomendado por espacio de trabajo: 32-48 núcleos.
    • Carga de trabajo adicional por usuario concurrente: mínimo 1 núcleo, recomendado de 2 a 16 núcleos (dependiendo de los casos de uso).
  • Almacenamiento:
    • Para ECS: SSD mínimos de 600 GB, almacenamiento en bloque acumulado recomendado de 4500 GB para uso del proyecto.
    • Para OCP: 4 TB de almacenamiento de bloques de volumen persistente por espacio de trabajo de ML, se recomienda 1 TB de espacio NFS por espacio de trabajo.
    • Para entornos de producción, se recomienda encarecidamente un entorno NFS externo con al menos 1000 GB de almacenamiento NFS.
    • Volumen de monitorización: se recomiendan 60 GB.
    • El almacenamiento VFS puede utilizar el aprovisionador NFS Longhorn o conectarse directamente a NFS.
  • Visualización: No se especifica explícitamente, ya que se trata de una plataforma a la que se accede a través de interfaces web.
  • Puertos: Se requiere un ancho de banda de red de 1 GB/s para todos los nodos y el clúster base. Los requisitos de puertos específicos para servicios internos y acceso externo (p. ej., para API REST, túneles SSH) están implícitos, pero no se detallan en los requisitos generales.
  • Sistema operativo: Red Hat OpenShift Container Platform (OCP) versiones 4.10 o 4.8, o Embedded Container Service (ECS).

Análisis: Los requisitos técnicos resaltan el enfoque empresarial de CML, que exige importantes recursos de computación y almacenamiento. La plataforma está diseñada para la escalabilidad, con una asignación de recursos que se ajusta al número de espacios de trabajo y cargas de trabajo de usuarios concurrentes. El énfasis en el almacenamiento en bloque dedicado y el uso de NFS externo para entornos de producción subraya la necesidad de una persistencia de datos robusta y de alto rendimiento. La dependencia de Kubernetes (mediante OCP o ECS) indica una arquitectura nativa de la nube, que requiere un entorno de orquestación de contenedores bien configurado. Las recomendaciones de recursos son sustanciales, lo que sugiere que CML es ideal para organizaciones con importantes necesidades de ciencia de datos y una infraestructura robusta.

Soporte y compatibilidad

Cloudera Machine Learning está diseñado para una amplia compatibilidad dentro del ecosistema de Cloudera Data Platform y admite diversas herramientas y marcos de aprendizaje automático de código abierto.

  • Última versión: ML Runtimes versión 2024.02.1 (según los últimos fragmentos de documentación disponibles).
  • Compatibilidad con sistemas operativos: Red Hat OpenShift Container Platform (OCP) versiones 4.10 o 4.8 y Embedded Container Service (ECS).
  • Fecha de fin de soporte: El fin de soporte (EoS) para las variantes de tiempo de ejecución de ML suele ser 6 meses después de la fecha de fin de mantenimiento (EoM), que coincide con la fecha de finalización del soporte de seguridad del kernel de la variante. Los complementos específicos del tiempo de ejecución de Spark (2.4, 3.2, 3.3) dejarán de estar certificados para su uso con lagos de datos en la nube pública que ejecuten versiones superiores a la 7.2.18; se recomienda migrar a Spark 3.5 para obtener soporte a largo plazo.
  • Localización: No se detalla explícitamente en la información disponible, pero las plataformas empresariales suelen ofrecer soporte multilingüe.
  • Controladores disponibles: CML se integra con diversos entornos de ejecución y bibliotecas de aprendizaje automático, incluidos Python (3.7, 3.8, 3.9, 3.10, 3.11), R (3.6, 4.0, 4.1) y Scala (2.11). Es compatible con marcos de aprendizaje automático populares como TensorFlow, Scikit-learn y PyTorch.

Análisis: Cloudera Machine Learning demuestra una sólida compatibilidad con las principales plataformas de orquestación de contenedores (OpenShift, Kubernetes a través de ECS) y una amplia gama de lenguajes y bibliotecas de programación de ciencia de datos populares. La naturaleza modular de los entornos de ejecución de ML permite flexibilidad para admitir diferentes versiones de Python, R y Scala, junto con sus respectivos ecosistemas. La política de ciclo de vida de soporte, vinculada al soporte de seguridad de origen para las variantes del kernel, proporciona un marco claro para el mantenimiento y las actualizaciones. Sin embargo, los usuarios deben tener en cuenta los avisos específicos de fin de soporte para componentes de entorno de ejecución particulares, como las versiones antiguas de Spark, y planificar las migraciones en consecuencia para mantener el soporte a largo plazo.

Estado de seguridad

Cloudera Machine Learning integra sólidas funciones de seguridad como parte de la plataforma de datos Cloudera, haciendo hincapié en flujos de trabajo de IA gobernados y conformes.

  • Funcionalidades de seguridad: La gobernanza y la seguridad de los datos están integradas en la plataforma. Admite un acceso seguro y controlado a los datos y la capacidad de cómputo para aplicaciones de IA.
  • Vulnerabilidades conocidas: No se detallan explícitamente en las descripciones generales del producto, pero la política de soporte de Cloudera indica que se pueden proporcionar correcciones de seguridad críticas (puntuación CVE de 9.0 o superior) durante el período de fin de mantenimiento.
  • Estado en la lista negra: No se ha encontrado información que indique un estado en la lista negra.
  • Certificaciones: No se detallan explícitamente en la información disponible, pero las plataformas empresariales suelen cumplir con los estándares de cumplimiento de la industria.
  • Soporte de cifrado: Se da por implícito en las prácticas generales de seguridad empresarial, pero no se detallan protocolos de cifrado específicos en la información pública disponible.
  • Métodos de autenticación:
    • Base de datos local interna.
    • Servicios externos: Active Directory, servicios de directorio compatibles con OpenLDAP, proveedores de identidad SAML 2.0.
    • Cloudera recomienda aprovechar el inicio de sesión único (SSO) a través de la consola de administración de CDP.
    • Admite la autenticación de Hadoop, incluyendo Kerberos, para cargas de trabajo de Spark y conexiones de Impala.
    • El servicio Cloudera AI Inference utiliza el token web JSON (JWT) de autenticación de carga de trabajo de Cloudera.
  • Recomendaciones generales: Cloudera hace hincapié en los flujos de trabajo de IA seguros, gobernados y conformes a lo largo de todo el ciclo de vida de la IA. Proporciona herramientas para crear, escalar y proteger la IA, garantizando la privacidad de los datos y modelos confidenciales mediante una gobernanza integral.

Análisis: Cloudera Machine Learning ofrece un marco de seguridad integral, especialmente a través de su integración con Cloudera Data Platform. La compatibilidad con diversos métodos de autenticación, incluidos estándares empresariales como Active Directory, LDAP y SAML 2.0, garantiza un acceso de usuario flexible y seguro. El uso de JWT para el servicio de inferencia refuerza aún más la seguridad de la API. Si bien no se divulgan ampliamente las certificaciones específicas ni los protocolos de cifrado detallados, el enfoque de la plataforma en la gobernanza de datos y los flujos de trabajo de IA seguros sugiere un firme compromiso con la seguridad empresarial. Los usuarios deben seguir las recomendaciones de Cloudera para la autenticación SSO y Kerberos para maximizar su nivel de seguridad.

Rendimiento y puntos de referencia

Cloudera Machine Learning está diseñado para cargas de trabajo de aprendizaje automático escalables y de alto rendimiento, aprovechando la computación distribuida.

  • Puntuaciones de referencia: Las puntuaciones de referencia públicas específicas para Cloudera Machine Learning no están disponibles fácilmente en los resultados de búsqueda proporcionados.
  • Métricas de rendimiento en el mundo real:
    • Se adapta sin esfuerzo para manejar grandes volúmenes de datos e implementar modelos de aprendizaje automático a gran escala.
    • Distribuye las cargas de trabajo de aprendizaje automático en múltiples nodos utilizando herramientas como Apache Spark y Dask, lo que garantiza la escalabilidad para proyectos de big data.
    • Permite el procesamiento en tiempo real y el análisis predictivo.
    • Optimizado para ejecutar cargas de trabajo de aprendizaje automático y análisis complejos rápidamente.
    • Admite el escalado automático sin servidor para cargas de trabajo intermitentes.
  • Consumo de energía: No se detalla explícitamente.
  • Huella de carbono: No se detalla explícitamente.
  • Comparación con activos similares:
    • Entre sus competidores se encuentran Dataiku, DataRobot, Amazon SageMaker, Alteryx Designer, MATLAB, Altair RapidMiner, IBM SPSS Statistics y Databricks Data Intelligence Platform.
    • Cloudera AI está mejor valorada que la plataforma de aprendizaje automático de Alibaba Cloud en cuanto a servicio, soporte, integración, implementación, evaluación y contratación de IA.
    • Cloudera AI está mejor valorada que IBM SPSS Statistics en servicio, soporte, evaluación y contratación.
    • En comparación con Databricks, Cloudera (CDP) es una solución veterana basada en Hadoop, que ofrece una pila completa para ecosistemas de datos complejos, mientras que Databricks, nacida en la nube, defiende el paradigma "lakehouse" con un motor optimizado para IA para cargas de trabajo de ML.
    • Cloudera Impala es conocido por su SQL de baja latencia, mientras que el motor de Databricks está optimizado para aprendizaje automático y análisis complejos, y admite escalado automático sin servidor.
    • Entre las alternativas para casos de uso específicos se incluyen Snowflake (escalabilidad), BigQuery (análisis en tiempo real), Databricks (aprendizaje automático), AWS EMR (flexibilidad), Amazon Redshift (rentabilidad) y Oracle Exadata (alto rendimiento).

Análisis: Cloudera Machine Learning está diseñado para ofrecer alto rendimiento y escalabilidad, especialmente en entornos que manejan conjuntos de datos grandes y complejos. Su capacidad para distribuir cargas de trabajo mediante Apache Spark y Dask, junto con el escalado automático sin servidor, garantiza una utilización eficiente de los recursos y una rápida ejecución de las tareas de aprendizaje automático. Si bien no se proporcionan puntuaciones de referencia directas, los comentarios de los usuarios y las comparaciones con la competencia sugieren sólidas capacidades en entornos empresariales, sobre todo para organizaciones con ecosistemas Hadoop existentes. La plataforma destaca por su completa integración con Cloudera Data Platform, que ofrece un entorno unificado para la gestión de datos, el análisis y el aprendizaje automático.

Reseñas y comentarios de los usuarios

Las reseñas y comentarios de los usuarios sobre Cloudera Machine Learning (a menudo denominado Cloudera AI) destacan sus puntos fuertes en la gestión de datos empresariales y las completas capacidades de su plataforma.

  • Fortalezas:
    • Plataforma avanzada de ciencia de datos para analizar, visualizar y modelar datos.
    • Conjunto integrado de potentes herramientas y servicios para desarrollar e implementar capacidades de aprendizaje automático.
    • Interfaz intuitiva de arrastrar y soltar, modelos preentrenados y amplia biblioteca de algoritmos.
    • Entorno flexible, escalable y seguro para la exploración y experimentación de datos.
    • Permite a las organizaciones gestionar enormes volúmenes de datos e implementar modelos de aprendizaje automático a gran escala.
    • Promueve la colaboración entre científicos de datos, ingenieros y analistas de negocios.
    • Aumenta la productividad mediante el aprendizaje automático automatizado y flujos de trabajo predefinidos.
    • Facilidad de uso y rapidez para lograr un impacto medible.
    • Herramienta muy útil para colaborar en proyectos de ciencia de datos.
  • Debilidades:
    • Puede resultar complejo de usar y requiere una curva de aprendizaje significativa para algunos usuarios.
    • Puede resultar costoso, especialmente para organizaciones con grandes cantidades de datos, y la estructura de precios para las empresas puede ser elevada.
    • La migración a Cloudera puede resultar difícil debido a su paquete de distribución completo.
    • Soporte limitado para la nube en algunos aspectos (aunque admite implementaciones híbridas/multi-nube).
  • Casos de uso recomendados:
    • Creación e implementación rápidas de modelos de aprendizaje automático.
    • Aprovechar el big data para fundamentar las decisiones.
    • Detección y prevención del fraude (por ejemplo, en servicios financieros, atención médica).
    • Evaluación de riesgos y gestión de carteras en finanzas.
    • Modelos predictivos para mejorar los resultados de los pacientes y gestionar los recursos sanitarios.
    • Inspección visual automatizada y detección de imperfecciones superficiales en la fabricación.
    • Mantenimiento predictivo.
    • Monitorización y control remotos, especialmente para la transmisión de datos en tiempo real.
    • Pipelines MLOps de extremo a extremo, que incluyen CI/CD automatizado, registro de modelos y capacidades de despliegue.

Análisis: Cloudera Machine Learning goza de gran prestigio por sus capacidades integrales para gestionar todo el ciclo de vida del aprendizaje automático en un contexto empresarial. Los usuarios valoran su escalabilidad, seguridad y funciones colaborativas, cruciales para grandes equipos de ciencia de datos. La capacidad de la plataforma para integrarse con diversas herramientas de código abierto y proporcionar flujos de trabajo predefinidos aumenta significativamente la productividad. Sin embargo, su complejidad y coste potencial representan desafíos, lo que sugiere que es más adecuada para organizaciones con recursos dedicados y una clara necesidad de una plataforma de aprendizaje automático integrada y escalable. Su sólido rendimiento en casos de uso específicos de sectores como finanzas, sanidad y manufactura consolida aún más su valor.

Resumen

Cloudera Machine Learning (CML) es una plataforma robusta de nivel empresarial diseñada para facilitar todo el ciclo de vida del aprendizaje automático, desde la ingesta y la ingeniería de datos hasta el entrenamiento, la implementación y la gobernanza de modelos. Como servicio basado en Kubernetes dentro de Cloudera Data Platform (CDP), ofrece un entorno unificado y colaborativo para científicos e ingenieros de datos. CML admite modelos de implementación flexibles, incluyendo entornos locales (a través de Embedded Container Service o OpenShift Container Platform) y en la nube, adaptándose a estrategias híbridas y multicloud.

La plataforma destaca por su excepcional escalabilidad, que permite a las organizaciones gestionar grandes volúmenes de datos e implementar modelos de aprendizaje automático a escala empresarial. Aprovecha tecnologías de computación distribuida como Apache Spark y Dask para optimizar la distribución de la carga de trabajo y garantizar un alto rendimiento. CML ofrece un amplio ecosistema de entornos de ejecución compatibles, incluyendo diversas versiones de Python, R y Scala, junto con populares frameworks de aprendizaje automático como TensorFlow, Scikit-learn y PyTorch. Sus funciones de seguridad integradas, como la compatibilidad con Active Directory, LDAP, SAML 2.0 y la autenticación Kerberos, garantizan flujos de trabajo de IA gobernados y conformes, protegiendo los datos confidenciales durante todo el ciclo de vida del aprendizaje automático.

Sin embargo, CML presenta importantes requisitos técnicos, exigiendo una gran cantidad de recursos de CPU, RAM y almacenamiento, sobre todo en entornos de producción. Esto indica que la plataforma es más adecuada para grandes empresas con la infraestructura y la experiencia necesarias para gestionar operaciones complejas de big data y aprendizaje automático. Los comentarios de los usuarios destacan su potencia y eficacia para proyectos colaborativos de ciencia de datos y su capacidad para acelerar la obtención de información valiosa. Por otro lado, algunos usuarios señalan su complejidad y su coste potencialmente elevado como aspectos preocupantes, lo que sugiere una curva de aprendizaje y la necesidad de un análisis de coste-beneficio exhaustivo.

En resumen, Cloudera Machine Learning es una solución potente para organizaciones comprometidas con la implementación de IA a gran escala, especialmente aquellas que ya invierten en el ecosistema de Cloudera o que requieren sólidas capacidades locales y de nube híbrida. Su completo conjunto de funciones, su alta seguridad y su rendimiento la convierten en una opción muy atractiva para casos de uso de aprendizaje automático complejos y con gran volumen de datos en diversos sectores como finanzas, salud y manufactura.

La información proporcionada se basa en datos de dominio público y puede variar según la configuración específica del dispositivo. Para obtener información actualizada, consulte los recursos oficiales del fabricante.