A Red Hat, líder mundial no fornecimento de soluções open source, anunciou hoje o lançamento do llm-d, um novo projeto de código aberto que responde à necessidade mais crucial para o futuro da IA generativa (gen AI): inferência em escala. Aproveitando tecnologias de inferência inovadoras para gen AI em escala, o llm-d é baseado em uma arquitetura nativa do Kubernetes, utiliza inferência distribuída com vLLM e roteamento de rede inteligente e sensível à IA, permitindo a criação de nuvens de inferência robustas para modelos de linguagem de grande escala (LLM) que atendam aos mais exigentes objetivos de nível de serviço (SLOs) em produção.
Ao aproveitar a inovação do vLLM e as capacidades comprovadas do Kubernetes, o llm-d abre caminho para inferência distribuída, escalável e de alto desempenho em toda a nuvem híbrida expandida, suportando qualquer modelo, qualquer acelerador, em qualquer ambiente de nuvem, ajudando a concretizar uma visão de potencial ilimitado para a IA.
Embora o treinamento continue sendo vital, o verdadeiro impacto da gen AI depende de inferência mais eficiente e escalável — o mecanismo que transforma modelos de IA em insights práticos e experiências para o usuário. De acordo com a Gartner¹, “até 2028, à medida que o mercado amadurecer, mais de 80% dos aceleradores de carga de trabalho em data centers serão implantados especificamente para inferência, em vez de treinamento”. Isso destaca que o futuro da gen AI está na capacidade de execução. As crescentes demandas de recursos de modelos de raciocínio cada vez mais sofisticados e complexos limitam a viabilidade da inferência centralizada e ameaçam criar gargalos na inovação em IA, devido a custos proibitivos e latência paralisante
Respondendo à necessidade de inferência escalável da gen AI com o llm-d
A Red Hat e seus parceiros da indústria estão enfrentando diretamente esse desafio com o llm-d, um projeto visionário que amplia o poder do vLLM para superar as limitações de um único servidor e liberar a produção em escala para inferência de IA. Usando o poder comprovado de orquestração do Kubernetes, o llm-d integra capacidades avançadas de inferência nas infraestruturas de TI corporativas existentes. Essa plataforma unificada capacita as equipes de TI a atender às diversas demandas de serviço de cargas de trabalho críticas para os negócios, enquanto implementa técnicas inovadoras para maximizar a eficiência e reduzir drasticamente o custo total de propriedade (TCO) associado a aceleradores de IA de alto desempenho.
O llm-d oferece um poderoso conjunto de inovações, com destaque para:
- vLLM, que rapidamente se tornou o servidor de inferência padrão em código aberto, oferecendo suporte de modelo desde o dia zero para modelos emergentes de fronteira e suporte para uma ampla lista de aceleradores, agora incluindo as Unidades de Processamento de Tensor (TPUs) do Google Cloud.
- Prefill e decodificação desagregada para separar contexto de entrada e geração de tokens de IA em operações distintas, que podem ser distribuídas entre múltiplos servidores.
- Descarregamento de Cache KV (key-value), baseado no LMCache, essa função transfere a carga de memória do cache KV da memória da GPU para um armazenamento padrão mais econômico e abundante, como memória da CPU ou armazenamento em rede.
- Clusters e controladores baseados em Kubernetes para um agendamento mais eficiente de recursos de computação e armazenamento, à medida que as demandas de carga de trabalho flutuam, assegurando o melhor desempenho e a menor latência.
- Roteamento com foco em IA para redes a fim de agendar solicitações de entrada para os servidores e aceleradores que provavelmente possuem caches recentes de cálculos anteriores à inferência.
- APIs de comunicação de alto desempenho para uma transferência de dados mais rápida e eficiente entre servidores, com suporte à NVIDIA Inference Xfer Library (NIXL).
llm-d: unânime entre líderes da indústria
Este novo projeto de código aberto já conta com o apoio de uma coalizão formidável de principais provedores de modelos de gen AI, pioneiros em aceleradores de IA e plataformas de nuvem líderes voltadas para IA. CoreWeave, Google Cloud, IBM Research e NVIDIA são os colaboradores fundadores, com AMD, Cisco, Hugging Face, Intel, Lambda e Mistral AI como parceiros, destacando a forte colaboração da indústria para arquitetar o futuro da execução de LLMs em escala. A comunidade llm-d também conta com o apoio de instituições acadêmicas como Sky Computing Lab da Universidade da Califórnia, criadores do vLLM, e o LMCache Lab da Universidade de Chicago, criadores do LMCache.
Fiel ao seu compromisso inabalável com a colaboração aberta, a Red Hat reconhece a importância crítica de comunidades vibrantes e acessíveis no cenário em rápida evolução da inferência de gen AI. A Red Hat vai ativamente apoiar o crescimento da comunidade llm-d, promovendo um ambiente inclusivo para novos membros e impulsionando sua evolução contínua.
A visão da Red Hat: qualquer modelo, qualquer acelerador, qualquer nuvem
O futuro da IA deve ser definido por oportunidades ilimitadas e não restrito por silos de infraestrutura. A Red Hat enxerga um horizonte no qual as organizações possam implantar qualquer modelo, em qualquer acelerador, em qualquer nuvem, entregando uma experiência de usuário excepcional e mais consistente, sem custos exorbitantes. Para desbloquear o verdadeiro potencial dos investimentos em gen AI, as empresas precisam de uma plataforma universal de inferência — um novo padrão para inovações em IA contínuas e de alto desempenho, tanto no presente quanto nos próximos anos.
Assim como a Red Hat foi pioneira na transformação do Linux em base fundamental da TI moderna, a empresa está agora preparada para arquitetar o futuro da inferência de IA. O vLLM tem o potencial de se tornar peça-chave para uma inferência padronizada em gen AI, e a Red Hat está comprometida em construir um ecossistema próspero não apenas em torno da comunidade vLLM, mas também do llm-d, voltado para inferência distribuída em larga escala. A visão é clara: independentemente do modelo de IA, do acelerador subjacente ou do ambiente de implantação, a Red Hat pretende tornar o vLLM o padrão aberto definitivo para inferência na nova nuvem híbrida.
Red Hat Summit
Participe das keynotes do Red Hat Summit para ouvir as últimas novidades de executivos, clientes e parceiros da Red Hat:
- Infraestrutura moderna alinhada à IA empresarial —Terça-feira, 20 de maio, 8h -10h EDT (YouTube)
- A nuvem híbrida evolui para impulsionar a inovação empresarial — Quarta-feira, 21 de maio, 8h-9h30 EDT (YouTube)
Citações de apoio
Brian Stevens, vice-presidente sênior e CTO de IA, Red Hat
“O lançamento da comunidade llm-d, apoiado por uma vanguarda de líderes em IA, marca um momento crucial para enfrentar a necessidade de inferência escalável para gen AI, um obstáculo fundamental que deve ser superado para possibilitar uma adoção mais ampla da IA empresarial. Ao aproveitar a inovação do vLLM e as capacidades comprovadas do Kubernetes, o llm-d abre caminho para inferência distribuída, escalável e de alto desempenho em toda a nuvem híbrida expandida, suportando qualquer modelo, qualquer acelerador, em qualquer ambiente de nuvem, ajudando a concretizar uma visão de potencial ilimitado para a IA.”
Ramine Roane, vice-presidente corporativo, AI Product Management, AMD
“A AMD tem orgulho de ser um membro fundador da comunidade llm-d, contribuindo com nossa experiência em GPUs de alto desempenho para avançar na inferência de IA para as necessidades empresariais em evolução. À medida que as organizações navegam pela crescente complexidade da IA generativa para alcançar maior escala e eficiência, a AMD está ansiosa para atender a essa demanda da indústria por meio do projeto llm-d.”
Shannon McFarland, vice-presidente, Cisco Open Source Program Office & Head of Cisco DevNet
“O projeto llm-d é um passo empolgante para a IA generativa prática. O llm-d permite que os desenvolvedores integrem programaticamente e escalem a inferência de IA generativa, desbloqueando novos níveis de inovação e eficiência no cenário moderno de IA. A Cisco tem orgulho de fazer parte da comunidade llm-d, onde estamos trabalhando juntos para explorar casos de uso reais que ajudam as organizações a aplicar a IA de forma mais efetiva e eficiente.”
Chen Goldberg, vice-presidente sênior de Engenharia, CoreWeave
“A CoreWeave tem orgulho de ser um contribuidor fundador do projeto llm-d e de aprofundar nosso compromisso de longa data com a IA open source. Desde nossa parceria inicial com a EleutherAI até nosso trabalho contínuo avançando a inferência em escala, temos investido constantemente para tornar a poderosa infraestrutura de IA mais acessível. Estamos empolgados em colaborar com um grupo incrível de parceiros e com a comunidade de desenvolvedores para construir um motor de inferência flexível e de alto desempenho que acelera a inovação e estabelece as bases para uma IA aberta e interoperável.”
Mark Lohmeyer, vice-presidente e general manager, AI & Computing Infrastructure, Google Cloud
“A inferência eficiente de IA é crucial à medida que as organizações migram para a implantação de IA em escala e entregam valor para seus usuários. Ao entrarmos nessa nova era da inferência, o Google Cloud tem orgulho de construir sobre nosso legado de contribuições em código aberto como um dos contribuintes fundadores do projeto llm-d. Essa nova comunidade será um catalisador fundamental para a inferência distribuída de IA em escala, ajudando os usuários a dispor de mais eficiência nas cargas de trabalho, com maior flexibilidade em relação aos recursos de infraestrutura disponíveis.”
Jeff Boudier, Head de Produto, Hugging Face
"Acreditamos que toda empresa deveria ser capaz de construir e executar seus próprios modelos. Com o vLLM aproveitando a biblioteca de transformers do Hugging Face como fonte oficial para definições de modelos, uma ampla diversidade de modelos — grandes e pequenos — está disponível para impulsionar aplicações de IA em texto, áudio, imagem e vídeo. Oito milhões de desenvolvedores de IA usam o Hugging Face para colaborar em mais de dois milhões de modelos e conjuntos de dados de IA compartilhados abertamente com a comunidade global. Estamos empolgados em apoiar o projeto llm-d, para que os desenvolvedores possam escalar essas aplicações."
Priya Nagpurkar, vice-presidente, Hybrid Cloud and AI Platform, IBM Research
“Na IBM, acreditamos que a próxima fase da IA está centrada na eficiência e escalabilidade. Estamos focados em desbloquear valor para as empresas por meio de soluções de IA que podem ser implantadas de maneira eficaz. Como contribuidor fundador do llm-d, a IBM tem orgulho de fazer parte da construção de uma plataforma de inferência distribuída, diferenciada e agnóstica de hardware. Estamos ansiosos para continuar nossas contribuições para o crescimento e sucesso desta comunidade, transformando o futuro da inferência de IA.”
Bill Pearson, vice-presidente, Data Center & AI Software Solutions and Ecosystem, Intel
“O lançamento do llm-d será um ponto de inflexão fundamental para a indústria na transformação da IA em escala, e a Intel está empolgada em participar como um apoiador fundador. O envolvimento da Intel no llm-d é mais um marco em nossa colaboração de décadas com a Red Hat para capacitar empresas com soluções de código aberto que possam ser implantadas em qualquer lugar, na plataforma de sua escolha. Estamos ansiosos para continuar ampliando e construindo a inovação em IA por meio da comunidade llm-d.”
Eve Callicoat, senior staff engineer, ML Platform, Lambda
“A inferência é onde o valor real da IA é entregue, e o llm-d representa um grande avanço. A Lambda tem orgulho de apoiar um projeto que torna a inferência de ponta acessível, eficiente e aberta.”
Ujval Kapasi, vice-presidente, Engenharia de Frameworks AI, NVIDIA
“O projeto llm-d é uma adição importante ao ecossistema de IA de código aberto e reflete o apoio da NVIDIA à colaboração para impulsionar a inovação em IA generativa. A inferência escalável e de alto desempenho é essencial para a próxima onda de IA generativa e Agentic AI. Estamos trabalhando com a Red Hat e outros parceiros para fomentar o engajamento da comunidade llm-d e a adoção pela indústria, ajudando a acelerar o llm-d com inovações da NVIDIA Dynamo como o NIXL.”
Ion Stoica, Professor e Diretor do Sky Computing Lab, Universidade da Califórnia, Berkeley
“Estamos felizes em ver a Red Hat expandir o sucesso já estabelecido do vLLM, que teve origem em nosso laboratório para ajudar a resolver os desafios de velocidade e memória associados à execução de grandes modelos de IA. Projetos de código aberto como o vLLM, e agora o llm-d, ancorados no vLLM, estão na vanguarda da inovação em IA, enfrentando os requisitos mais exigentes de inferência de IA e movimentando o setor de forma ampla.”
Junchen Jiang, Professor de Ciência da Computação, LMCache Lab, Universidade de Chicago
“Otimizações distribuídas de cache KV, como descarregamento, compressão e blending, têm sido um foco importante em nosso laboratório, e estamos empolgados em ver o llm-d utilizando o LMCache como um componente central para reduzir o tempo até o primeiro token, além de melhorar o throughput, especialmente em inferências de contexto longo.”
1Forecast Analysis: AI Semiconductors, Worldwide, Alan Priestley, Gartner, 2 August 2024 - ID G00818912 GARTNER is a registered trademark and service mark of Gartner, Inc. and/or its affiliates in the U.S. and internationally and is used herein with permission. All rights reserved.
Additional Resources
- Descubra mais sobre o llm-d
- Leia mais sobre o vLLM
- Saiba como contribuir com o llm-d
- Descubra mais sobre Red Hat Summit
- Veja todos os anúncios da Red Hat na sala de notícias do Red Hat Summit
- Siga @RedHatSummit ou #RHSummit no X para receber atualizações do Evento
Connect with Red Hat
- Descubra mais sobre a Red Hat
- Receba notícias na sala de notícias da Red Hat
- Leia o Red Hat blog
- Siga a Red Hat no X
- Siga a Red Hat no Instagram
- Siga a Red Hat no LinkedIn
- Veja vídeos da Red Hat no YouTube
- SOBRE A RED HAT
A Red Hat é líder em tecnologia de nuvem híbrida aberta, e proporciona uma base confiável, consistente e abrangente para uma inovação transformadora em TI e aplicações de inteligência artificial (IA). Seu portfólio de tecnologias de nuvem, desenvolvimento, IA, Linux e automação permite a implementação de qualquer aplicação, em qualquer lugar, desde data centers até a edge. Como líder mundial no fornecimento de soluções de software open source empresarial, a Red Hat investe em ecossistemas e comunidades abertas para resolver os desafios de TI do futuro. Por meio da colaboração, a Red Hat ajuda clientes e parceiros a construir, conectar, automatizar, proteger e gerenciar seus ambientes de TI, com o suporte de serviços de consultoria, treinamento e certificação reconhecidos mundialmente.
- DECLARAÇÕES PROSPECTIVAS
Exceto pelas informações históricas e discussões contidas aqui, as declarações contidas neste comunicado de imprensa podem constituir declarações prospectivas dentro do significado da Lei de Reforma da Litígios de Valores Mobiliários de 1995. As declarações prospectivas são baseadas nas suposições atuais da empresa sobre o desempenho futuro dos negócios e financeiros. Essas declarações envolvem uma série de riscos, incertezas e outros fatores que podem fazer com que os resultados reais sejam materialmente divergentes. Qualquer declaração prospectiva neste comunicado fala apenas na data em que foi feita. Exceto quando exigido por lei, a empresa não assume a obrigação de atualizar ou revisar qualquer declaração prospectiva.
###
Red Hat e a logo da Red Hat são marcas comerciais ou marcas registradas da Red Hat, Inc. ou de suas subsidiárias nos Estados Unidos e em outros países.