Cloudera Machine Learning

Cloudera Machine Learning

O Cloudera Machine Learning se destaca no gerenciamento escalável do ciclo de vida de aprendizado de máquina.

Informações básicas

Cloudera Machine Learning (CML) é uma plataforma projetada para o ciclo de vida completo de aprendizado de máquina, desde a engenharia de dados até a implantação e governança de modelos. É um serviço baseado em Kubernetes que faz parte da Cloudera Data Platform (CDP). O CML oferece um espaço unificado para soluções colaborativas de ciência de dados, aproveitando ferramentas nativas relevantes para aprendizado de máquina. Está disponível para implantação em ambientes de nuvem privada e pública, com suporte a cenários híbridos.

  • Modelo: Cloudera Machine Learning (CML)
  • Versão: ML Runtimes Versão 2024.02.1 (a versão mais recente observada nos resultados de pesquisa de pacotes pré-instalados)
  • Data de lançamento: Atualizado continuamente como parte da Plataforma de Dados Cloudera. As datas de lançamento específicas para as versões principais não estão consistentemente disponíveis, mas os Runtimes de ML são versionados (por exemplo, 2023.12.1, 2023.08.2, 2024.02.1).
  • Requisitos mínimos: Variam significativamente de acordo com o modelo de implantação (ECS ou OCP) e as cargas de trabalho esperadas dos usuários. Geralmente exigem CPU, memória e armazenamento substanciais.
  • Sistemas Operacionais Suportados: Funciona principalmente no Red Hat OpenShift Container Platform (OCP) versões 4.10 ou 4.8 (para atualizações para a versão 1.5.0) e no Embedded Container Service (ECS).
  • Última versão estável: ML Runtimes versão 2024.02.1 (conforme os trechos de documentação mais recentes disponíveis).
  • Data de Fim do Suporte: As datas de Fim do Suporte (EoS) para variantes do ML Runtime geralmente ocorrem 6 meses após as datas de Fim da Manutenção (EoM), o que está alinhado com o suporte de segurança upstream do kernel da variante. Para complementos do Spark Runtime, a certificação para Spark 2.4, 3.2 e 3.3 termina para Data Lakes em Nuvem Pública executando versões superiores a 7.2.18, sendo recomendado aos usuários a migração para o Spark 3.5 para suporte a longo prazo além da versão 7.2.18.
  • Data de Fim de Vida Útil: Não é explicitamente definida como uma data única para todo o produto, mas está vinculada ao ciclo de vida de suporte de seus componentes subjacentes e variantes de tempo de execução.
  • Data de expiração da atualização automática: Não especificada.
  • Tipo de licença: Comercial, provavelmente baseada em assinatura como parte da Plataforma de Dados Cloudera.
  • Modelo de implantação: local (via Embedded Container Service ou OpenShift Container Platform) e nuvem (Data Lakes em nuvem pública), com suporte a ambientes híbridos e multicloud.

Requisitos técnicos

Os requisitos técnicos do Cloudera Machine Learning são substanciais, refletindo seu papel como uma plataforma de nível empresarial para processamento de dados em larga escala e aprendizado de máquina. Os requisitos variam de acordo com o método de implantação (Embedded Container Service ou OpenShift Container Platform) e a escala das cargas de trabalho.

  • BATER:
    • Espaço mínimo por espaço de trabalho: 128 GB.
    • Recomendado por espaço de trabalho: 256 GB.
    • Carga de trabalho adicional por usuário simultâneo: Mínimo de 2 GB, Recomendado de 4 a 64 GB (dependendo dos casos de uso).
  • Processador:
    • Requisitos mínimos por espaço de trabalho: 32 núcleos.
    • Recomendado por espaço de trabalho: 32-48 núcleos.
    • Carga de trabalho adicional por usuário simultâneo: Mínimo de 1 núcleo, Recomendado de 2 a 16 núcleos (dependendo dos casos de uso).
  • Armazenar:
    • Para ECS: SSDs com capacidade mínima de 600 GB, recomenda-se um armazenamento em bloco cumulativo de 4500 GB para uso no projeto.
    • Para OCP: 4 TB de armazenamento em bloco de volume persistente por Workspace de ML, sendo recomendado 1 TB de espaço NFS por Workspace.
    • Para ambientes de produção, recomenda-se fortemente um ambiente NFS externo com pelo menos 1000 GB de armazenamento NFS.
    • Volume de monitoramento: 60 GB recomendados.
    • O armazenamento VFS pode usar o provisionador NFS Longhorn ou conectar-se diretamente ao NFS.
  • Exibição: Não especificada explicitamente, pois trata-se de uma plataforma acessada por meio de interfaces web.
  • Portas: É necessária uma largura de banda de rede de 1 GB/s para todos os nós e para o cluster base. Requisitos específicos de porta para serviços internos e acesso externo (por exemplo, para APIs REST, túneis SSH) estão implícitos, mas não detalhados nos requisitos gerais.
  • Sistema Operacional: Red Hat OpenShift Container Platform (OCP) versões 4.10 ou 4.8, ou Embedded Container Service (ECS).

Análise: Os requisitos técnicos destacam o foco empresarial do CML, exigindo recursos computacionais e de armazenamento significativos. A plataforma foi projetada para escalabilidade, com alocação de recursos que se ajusta ao número de espaços de trabalho e cargas de trabalho simultâneas dos usuários. A ênfase em armazenamento em bloco dedicado e NFS externo para ambientes de produção ressalta a necessidade de persistência de dados robusta e de alto desempenho. A dependência do Kubernetes (via OCP ou ECS) indica uma arquitetura nativa da nuvem, que requer um ambiente de orquestração de contêineres bem configurado. As recomendações de recursos são substanciais, sugerindo que o CML é mais adequado para organizações com necessidades significativas em ciência de dados e recursos de infraestrutura robustos.

Suporte e compatibilidade

O Cloudera Machine Learning foi projetado para ampla compatibilidade dentro do ecossistema da Cloudera Data Platform e oferece suporte a diversas ferramentas e estruturas de aprendizado de máquina de código aberto.

  • Última versão: ML Runtimes versão 2024.02.1 (conforme os trechos de documentação mais recentes disponíveis).
  • Suporte a sistemas operacionais: Red Hat OpenShift Container Platform (OCP) versões 4.10 ou 4.8 e Embedded Container Service (ECS).
  • Data de Fim do Suporte: O Fim do Suporte (EoS) para variantes do ML Runtime geralmente ocorre 6 meses após as datas de Fim da Manutenção (EoM), que estão alinhadas com o suporte de segurança upstream do kernel da variante. Complementos específicos do Spark Runtime (2.4, 3.2, 3.3) deixarão de ser certificados para Data Lakes em Nuvem Pública executando versões superiores à 7.2.18, sendo recomendada a migração para o Spark 3.5 para suporte a longo prazo.
  • Localização: Não está explicitamente detalhada nas informações disponíveis, mas as plataformas empresariais normalmente oferecem suporte a vários idiomas.
  • Drivers disponíveis: O CML integra-se com diversas bibliotecas e ambientes de execução de aprendizado de máquina, incluindo Python (3.7, 3.8, 3.9, 3.10, 3.11), R (3.6, 4.0, 4.1) e Scala (2.11). Ele oferece suporte a frameworks populares de aprendizado de máquina, como TensorFlow, Scikit-learn e PyTorch.

Análise: O Cloudera Machine Learning demonstra forte compatibilidade com as principais plataformas de orquestração de contêineres (OpenShift, Kubernetes via ECS) e com uma ampla gama de linguagens e bibliotecas populares de programação para ciência de dados. A natureza modular dos runtimes de ML permite flexibilidade no suporte a diferentes versões de Python, R e Scala, juntamente com seus respectivos ecossistemas. A política de ciclo de vida de suporte, vinculada ao suporte de segurança upstream para variantes do kernel, fornece uma estrutura clara para manutenção e atualizações. No entanto, os usuários devem estar cientes dos avisos específicos de fim de suporte para determinados componentes de runtime, como versões mais antigas do Spark, e planejar as migrações de acordo para manter o suporte a longo prazo.

Estado de segurança

O Cloudera Machine Learning integra recursos robustos de segurança como parte da plataforma Cloudera Data Platform, com ênfase em fluxos de trabalho de IA governados e em conformidade com as normas.

  • Recursos de segurança: A governança e a segurança de dados estão integradas à plataforma. Ela oferece suporte a acesso seguro e controlado a dados e recursos computacionais para aplicações de IA.
  • Vulnerabilidades conhecidas: Não detalhadas explicitamente nas descrições gerais do produto, mas a política de suporte da Cloudera indica que correções de segurança críticas (pontuação CVE de 9,0 ou superior) podem ser fornecidas durante o período de Fim de Manutenção.
  • Status na lista negra: Nenhuma informação encontrada indicando o status na lista negra.
  • Certificações: Embora não estejam explicitamente detalhadas nas informações disponíveis, as plataformas empresariais normalmente seguem os padrões de conformidade do setor.
  • Suporte à criptografia: Implícito nas práticas gerais de segurança corporativa, mas os protocolos de criptografia específicos não são detalhados nas informações públicas disponíveis.
  • Métodos de autenticação:
    • Banco de dados local interno.
    • Serviços externos: Active Directory, serviços de diretório compatíveis com OpenLDAP, provedores de identidade SAML 2.0.
    • A Cloudera recomenda o uso do Single Sign-On (SSO) por meio do console de gerenciamento do CDP.
    • Suporta autenticação Hadoop, incluindo Kerberos, para cargas de trabalho Spark e conexões Impala.
    • O serviço Cloudera AI Inference utiliza o token JWT (JSON Web Token) para autenticação de cargas de trabalho da Cloudera.
  • Recomendações gerais: A Cloudera prioriza fluxos de trabalho de IA seguros, governados e em conformidade com as regulamentações em todo o ciclo de vida da IA. Ela fornece ferramentas para criar, dimensionar e proteger a IA, garantindo que dados e modelos sensíveis permaneçam privados com governança de ponta a ponta.

Análise: O Cloudera Machine Learning oferece uma estrutura de segurança abrangente, principalmente por meio de sua integração com a Cloudera Data Platform. O suporte a vários métodos de autenticação, incluindo padrões corporativos como Active Directory, LDAP e SAML 2.0, garante acesso flexível e seguro para os usuários. O uso de JWT para o serviço de Inferência fortalece ainda mais a segurança da API. Embora as certificações específicas e os protocolos de criptografia detalhados não sejam amplamente divulgados, o foco da plataforma em governança de dados e fluxos de trabalho de IA seguros demonstra um forte compromisso com a segurança corporativa. Os usuários devem seguir as recomendações da Cloudera para autenticação SSO e Kerberos para maximizar a segurança.

Desempenho e indicadores de desempenho

O Cloudera Machine Learning foi projetado para cargas de trabalho de aprendizado de máquina escaláveis e de alto desempenho, aproveitando a computação distribuída.

  • Resultados de benchmark: Resultados de benchmark públicos específicos para o Cloudera Machine Learning não estão prontamente disponíveis nos resultados da pesquisa.
  • Métricas de desempenho no mundo real:
    • Adapta-se facilmente para lidar com volumes massivos de dados e implantar modelos de aprendizado de máquina em grande escala.
    • Distribui cargas de trabalho de aprendizado de máquina em vários nós usando ferramentas como Apache Spark e Dask, garantindo escalabilidade para projetos de big data.
    • Permite processamento em tempo real e análises preditivas.
    • Otimizado para executar cargas de trabalho de aprendizado de máquina e análises complexas rapidamente.
    • Suporta escalonamento automático sem servidor para cargas de trabalho intermitentes.
  • Consumo de energia: Não especificado explicitamente.
  • Pegada de carbono: Não detalhada explicitamente.
  • Comparação com ativos semelhantes:
    • Entre os concorrentes estão Dataiku, DataRobot, Amazon SageMaker, Alteryx Designer, MATLAB, Altair RapidMiner, IBM SPSS Statistics e Databricks Data Intelligence Platform.
    • A Cloudera AI tem uma classificação superior à plataforma de Machine Learning da Alibaba Cloud em IA nos quesitos de serviço, suporte, integração, implementação, avaliação e contratação.
    • O Cloudera AI tem uma classificação superior ao IBM SPSS Statistics em serviços, suporte, avaliação e contratos.
    • Em comparação com o Databricks, o Cloudera (CDP) é uma solução veterana com raízes no Hadoop, oferecendo um conjunto abrangente de ferramentas para ecossistemas de dados complexos, enquanto o Databricks, nascido na nuvem, defende o paradigma "lakehouse" com um mecanismo otimizado para IA para cargas de trabalho de aprendizado de máquina.
    • O Impala da Cloudera é conhecido por sua baixa latência em SQL, enquanto o mecanismo da Databricks é otimizado para aprendizado de máquina e análises complexas, suportando escalonamento automático sem servidor.
    • Alternativas para casos de uso específicos incluem Snowflake (escalabilidade), BigQuery (análise em tempo real), Databricks (aprendizado de máquina), AWS EMR (flexibilidade), Amazon Redshift (custo-benefício) e Oracle Exadata (alto desempenho).

Análise: O Cloudera Machine Learning foi projetado para alto desempenho e escalabilidade, especialmente em ambientes que lidam com conjuntos de dados grandes e complexos. Sua capacidade de distribuir cargas de trabalho usando Apache Spark e Dask, juntamente com o escalonamento automático sem servidor, garante a utilização eficiente de recursos e a execução rápida de tarefas de aprendizado de máquina. Embora não sejam fornecidos resultados diretos de benchmarks, o feedback dos usuários e as comparações com concorrentes sugerem fortes capacidades em ambientes corporativos, principalmente para organizações com ecossistemas Hadoop existentes. Os pontos fortes da plataforma residem em sua integração abrangente com a Cloudera Data Platform, oferecendo um ambiente unificado para gerenciamento de dados, análise e aprendizado de máquina.

Avaliações e comentários dos usuários

As avaliações e comentários dos usuários sobre o Cloudera Machine Learning (frequentemente chamado de Cloudera AI) destacam seus pontos fortes no gerenciamento de dados corporativos e seus recursos abrangentes de plataforma.

  • Pontos fortes:
    • Plataforma avançada de ciência de dados para analisar, visualizar e modelar dados.
    • Conjunto integrado de ferramentas e serviços poderosos para construir e implementar recursos de aprendizado de máquina.
    • Interface intuitiva de arrastar e soltar, modelos pré-treinados e extensa biblioteca de algoritmos.
    • Ambiente flexível, escalável e seguro para exploração e experimentação de dados.
    • Permite que as organizações lidem com volumes massivos de dados e implementem modelos de aprendizado de máquina em escala.
    • Promove a colaboração entre cientistas de dados, engenheiros e analistas de negócios.
    • Aumenta a produtividade através de aprendizado de máquina automatizado e fluxos de trabalho pré-configurados.
    • Facilidade de uso e rapidez para alcançar um impacto mensurável.
    • Ferramenta muito útil para colaborar em projetos de ciência de dados.
  • Pontos fracos:
    • Pode ser complexo de usar e requer uma curva de aprendizado significativa para alguns usuários.
    • Potencialmente dispendioso, especialmente para organizações com grandes quantidades de dados, e a estrutura de preços para empresas pode ser elevada.
    • A migração para o Cloudera pode ser difícil devido ao seu pacote de distribuição completo.
    • Suporte limitado para nuvem em alguns aspectos (embora suporte implantações híbridas/multicloud).
  • Casos de uso recomendados:
    • Criar e implementar modelos de aprendizado de máquina rapidamente.
    • Aproveitando o potencial do Big Data para embasar decisões.
    • Detecção e prevenção de fraudes (por exemplo, em serviços financeiros, saúde).
    • Avaliação de risco e gestão de portfólio em finanças.
    • Modelos preditivos para melhorar os resultados dos pacientes e gerenciar os recursos de saúde.
    • Inspeção visual automatizada e detecção de imperfeições superficiais na fabricação.
    • Manutenção preditiva.
    • Monitoramento e controle remotos, especialmente para transmissão de dados em tempo real.
    • Pipelines MLOps de ponta a ponta, incluindo CI/CD automatizado, registro de modelos e recursos de implantação.

Análise: O Cloudera Machine Learning é altamente conceituado por suas amplas capacidades de gerenciamento de todo o ciclo de vida de aprendizado de máquina em um contexto empresarial. Os usuários apreciam sua escalabilidade, segurança e recursos colaborativos, que são cruciais para grandes equipes de ciência de dados. A capacidade da plataforma de se integrar a diversas ferramentas de código aberto e fornecer fluxos de trabalho pré-configurados aumenta significativamente a produtividade. No entanto, a complexidade e o custo potencial são apontados como desafios, sugerindo que ela é mais adequada para organizações com recursos dedicados e uma clara necessidade de uma plataforma de aprendizado de máquina integrada e escalável. Seu forte desempenho em casos de uso específicos da indústria, como finanças, saúde e manufatura, reforça ainda mais seu valor.

Resumo

O Cloudera Machine Learning (CML) é uma plataforma robusta de nível empresarial, projetada para facilitar todo o ciclo de vida do aprendizado de máquina, desde a ingestão e engenharia de dados até o treinamento, implantação e governança de modelos. Como um serviço baseado em Kubernetes dentro da Cloudera Data Platform (CDP), oferece um ambiente unificado e colaborativo para cientistas e engenheiros de dados. O CML suporta modelos de implantação flexíveis, incluindo on-premises (via Embedded Container Service ou OpenShift Container Platform) e nuvem, atendendo a estratégias híbridas e multicloud.

Os pontos fortes da plataforma residem em sua excepcional escalabilidade, permitindo que as organizações gerenciem volumes massivos de dados e implementem modelos de aprendizado de máquina em escala empresarial. Ela utiliza tecnologias de computação distribuída, como Apache Spark e Dask, para otimizar a distribuição da carga de trabalho e garantir alto desempenho. O CML oferece um rico ecossistema de ambientes de execução suportados, incluindo diversas versões de Python, R e Scala, juntamente com frameworks populares de aprendizado de máquina, como TensorFlow, Scikit-learn e PyTorch. Seus recursos de segurança integrados, incluindo suporte para Active Directory, LDAP, SAML 2.0 e autenticação Kerberos, garantem fluxos de trabalho de IA governados e em conformidade, protegendo dados sensíveis durante todo o ciclo de vida do aprendizado de máquina.

No entanto, o CML apresenta requisitos técnicos significativos, exigindo recursos substanciais de CPU, RAM e armazenamento, principalmente em ambientes de produção. Isso indica que a plataforma é mais adequada para grandes empresas com a infraestrutura e a expertise necessárias para gerenciar operações complexas de big data e aprendizado de máquina. O feedback dos usuários destaca seu poder e eficácia para projetos colaborativos de ciência de dados e sua capacidade de acelerar a obtenção de insights. Por outro lado, alguns usuários apontam sua complexidade e o custo potencialmente elevado como pontos de preocupação, sugerindo uma curva de aprendizado e a necessidade de uma análise cuidadosa de custo-benefício.

Em resumo, o Cloudera Machine Learning é uma solução poderosa para organizações comprometidas com a implementação de IA em escala, especialmente aquelas que já investiram no ecossistema Cloudera ou que necessitam de recursos robustos em ambientes locais e em nuvem híbrida. Seu conjunto abrangente de recursos, segurança robusta e desempenho o tornam um forte concorrente para casos de uso complexos e com grande volume de dados em aprendizado de máquina em diversos setores, como finanças, saúde e manufatura.

As informações fornecidas são baseadas em dados disponíveis publicamente e podem variar dependendo das configurações específicas do dispositivo. Para obter informações atualizadas, consulte os recursos oficiais do fabricante.