À medida que a adoção de AI acelera, as organizações enfrentam uma pressão crescente para implementar sistemas que possam apoiar as iniciativas de AI. A implementação desses sistemas especializados exige profundo conhecimento e preparação estratégica para garantir o desempenho da IA.
A infraestrutura de IA refere-se a uma combinação de sistemas de hardware, software, rede e armazenamento projetados para suportar cargas de trabalho de IA e Machine Learning (ML). A infraestrutura de TI tradicional, criada para computação de uso geral, não tem capacidade para lidar com a vasta quantidade de poder computacional exigida pelas cargas de trabalho de IA. A infraestrutura de IA atende às necessidades de IA para um enorme throughput de dados, processamento paralelo e aceleradores, como unidades de processamento gráfico (GPUs).
Um sistema na escala do chatbot ChatGPT, por exemplo, requer milhares de GPUs interconectadas, redes de alta largura de banda e software de orquestração bem ajustado, enquanto um aplicativo web típico pode ser executado em um pequeno número de unidades de processamento central (CPUs) e serviços de nuvem padrão. A infraestrutura de IA é essencial para empresas que buscam aproveitar o poder da IA.
Os componentes principais da infraestrutura de IA trabalham juntos para viabilizar as cargas de trabalho de IA.
A computação depende de vários tipos de chips que executam instruções:
CPUs são processadores de uso geral.
GPUs são processadores especializados, desenvolvidos para acelerar a criação e a renderização de gráficos de computador, imagens e vídeos. As GPUs usam um enorme poder de processamento paralelo para permitir que redes neurais executem um grande número de operações de uma só vez e acelerem computações complexas. As GPUs são essenciais para cargas de trabalho de IA e Machine Learning, pois podem treinar e executar modelos de IA muito mais rápido do que as CPUs convencionais.
As GPUs são circuitos integrados de aplicação específica (ASICs) projetados para uma finalidade única e específica. A NVIDIA é a fornecedora dominante de GPUs, enquanto a Advanced Micro Devices é a segunda maior fabricante de GPUs.
TPUs, ou unidades de processamento de tensores, são ASICs do Google. Elas são mais especializadas que as GPUs, projetadas especificamente para atender às demandas de computação da IA. As TPUs são projetadas especificamente para operações com tensores, que as redes neurais usam para aprender padrões и fazer previsões. Essas operações são fundamentais para os algoritmos de aprendizagem profunda.
Na prática, as CPUs são melhores para tarefas de uso geral. As GPUs podem ser usadas para várias aplicações de IA, incluindo aquelas que exigem processamento paralelo, como o treinamento de modelos de aprendizagem profunda. As TPUs são otimizadas para tarefas especializadas, como o treinamento de redes neurais grandes e complexas, especialmente com grandes volumes de dados.
O armazenamento e a gestão de dados na infraestrutura de IA devem suportar o acesso com throughput extremamente alta a grandes datasets para evitar gargalos de dados e garantir a eficiência.
O armazenamento de objetos é o meio de armazenamento mais comum para IA, capaz de conter as enormes quantidades de dados estruturados e não estruturados necessários para os sistemas de IA. Ele também é facilmente escalável e econômico.
O armazenamento em bloco oferece acesso rápido, eficiente e confiável e é mais caro. Funciona melhor com dados transacionais e arquivos pequenos que precisam ser recuperados com frequência, para workloads como bancos de dados, máquinas virtuais e aplicações de alto desempenho.
Muitas organizações usam data lakes, que são repositórios centralizados que utilizam armazenamento de objetos e formatos abertos para armazenar grandes quantidades de dados. Os data lakes podem processar todos os tipos de dados — incluindo dados não estruturados e semiestruturados, como imagens, vídeos, áudio e documentos —, o que é importante para casos de uso de AI.
Uma rede robusta é uma parte central da infraestrutura de IA. As redes movem os enormes datasets necessários para a IA de forma rápida e eficiente entre o armazenamento e a computação, evitando que gargalos de dados interrompam os fluxos de trabalho de IA. Conexões de baixa latência são necessárias para o treinamento distribuído — em que várias GPUs trabalham juntas em um único modelo — e para a inferência em tempo real, o processo que um modelo de AI treinado usa para tirar conclusões de dados totalmente novos. Tecnologias como InfiniBand, um padrão de interconexão de alto desempenho, e Ethernet de alta largura de banda facilitam conexões de alta velocidade para uma AI eficiente, escalável e confiável.
O software também é fundamental para a infraestrutura de IA. Frameworks de ML como TensorFlow e PyTorch fornecem componentes e estruturas pré-construídos para simplificar e acelerar o processo de criação, treinamento e implantação de modelos de ML. Plataformas de orquestração como o Kubernetes coordenam e gerenciam modelos de IA, pipelines de dados e recursos computacionais para que funcionem em conjunto como um sistema unificado.
As organizações também usam MLOps — um conjunto de práticas que combina ML, DevOps e engenharia de dados — para automatizar e simplificar fluxos de trabalho e implantações em todo o ciclo de vida de ML. As plataformas de MLOps simplificam os fluxos de trabalho por trás do desenvolvimento e da implantação de IA para ajudar as organizações a trazer novos produtos e serviços habilitados para IA para o mercado.
A infraestrutura de AI pode ser implantada na cloud, on-premises ou por meio de um modelo híbrido, com diferentes benefícios para cada opção. Os tomadores de decisão devem considerar vários fatores, incluindo as metas de AI da organização, os padrões de workload, o orçamento, os requisitos de compliance e a infraestrutura existente.
Diferentes workloads de IA impõem demandas distintas em computação, armazenamento e rede. Portanto, entender suas características e necessidades é fundamental para escolher a infraestrutura certa.
A criação da sua infraestrutura de IA requer um processo deliberado de avaliação minuciosa, planejamento cuidadoso e execução eficaz. Estes são os passos essenciais a serem seguidos.
Os custos contínuos são um fator importante na operação da infraestrutura de IA, variando de cerca de US$ 5.000 por mês para projetos pequenos a mais de US$ 100.000 por mês para sistemas empresariais. Cada projeto de IA é único, no entanto, e estimar um orçamento realista exige considerar diversos fatores.
As despesas com compute, armazenamento, rede e serviços gerenciados são um elemento importante no planejamento do seu orçamento. Entre elas, a compute — especialmente as horas de GPU — geralmente representa o maior gasto. Os custos de armazenamento e transferência de dados podem flutuar de acordo com o tamanho do dataset e as cargas de trabalho do modelo.
Outra área a ser explorada é o custo dos serviços em cloud. Os modelos de preços de cloud variam e oferecem benefícios diferentes para necessidades diferentes. As opções incluem:
Custos ocultos podem inflar os orçamentos se não forem gerenciados ativamente. Por exemplo, a transferência de dados para fora das plataformas de cloud pode trigger taxas de saída de dados, e os recursos parados devem ser pagos mesmo quando não estão sendo utilizados. À medida que as equipes iteram em modelos, geralmente executando vários testes simultaneamente, os custos indiretos da experimentação podem aumentar. O monitoramento desses fatores é crucial para uma infraestrutura de AI com bom custo-benefício.
As estratégias de otimização podem ajudar a aumentar a eficiência, mantendo os custos sob controle. Isso inclui:
Planejar e implementar a infraestrutura de IA é um grande empreendimento, e os detalhes podem fazer a diferença. Aqui estão algumas práticas recomendadas a serem consideradas.
Como qualquer projeto impactante, a construção de uma infraestrutura de IA pode apresentar desafios e obstáculos. Alguns cenários a serem considerados incluem:
Iniciativas de IA bem-sucedidas dependem de uma infraestrutura que possa evoluir junto com os avanços da IA. As organizações podem dar suporte a operações de IA eficientes e à melhoria contínua por meio de uma estratégia de arquitetura de IA e práticas recomendadas bem planejadas. Uma base bem projetada permite que as organizações se concentrem na inovação e avancem com confiança da experimentação com IA para o impacto no mundo real.
O que é infraestrutura de IA?
A infraestrutura de AI se refere a uma combinação de sistemas de hardware, software, rede e armazenamento projetada para suportar cargas de trabalho de AI.
Preciso de GPUs para IA?
As GPUs são essenciais para o treinamento de IA e a inferência de alto desempenho, mas a IA básica e alguns modelos menores podem ser executados em CPUs.
cloud ou on-premises para infraestrutura de AI?
Escolha a nuvem para ter flexibilidade e escalonamento rápido, on-premises para ter controle e cargas de trabalho previsíveis e o modelo híbrido quando precisar de ambos.
Quanto custa a infraestrutura de IA?
Os custos dependem das necessidades de computação, do tamanho dos dados e do modelo de implantação. Eles podem variar de alguns milhares de dólares para pequenas cargas de trabalho na nuvem a milhões para grandes sistemas de IA.
Qual é a diferença entre a infraestrutura de treinamento e a de inferência?
O treinamento exige grandes quantidades de compute e throughput de dados, enquanto a inferência se concentra em compute estável, baixa latência e acessibilidade para os usuários finais.
Quanto tempo leva para criar uma infraestrutura de IA?
A implementação de uma infraestrutura de IA pode levar de algumas semanas a um ano ou mais, dependendo da complexidade do projeto.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
