A Red Hat, líder mundial no fornecimento de soluções open source, anunciou hoje o Red Hat AI Inference Server, um passo significativo para democratizar a IA generativa (gen AI) na nuvem híbrida. Nova oferta dentro do Red Hat AI, o servidor de inferência de nível empresarial nasce a partir do poderoso projeto comunitário vLLM, aprimorado pela integração das tecnologias Neural Magic às da Red Hat, e oferecendo mais velocidade, eficiência no uso de aceleradores e melhor relação custo-benefício para ajudar a concretizar a visão da Red Hat de rodar qualquer modelo de gen AI,em qualquer acelerador de IA e em qualquer ambiente de nuvem. Seja de forma independente ou como parte integrada do Red Hat Enterprise Linux AI (RHEL AI) e do Red Hat OpenShift AI, a nova plataforma permite que as organizações implementem e escalem a gen AI em produção com mais confiança.
O Red Hat AI Inference Server foi projetado para atender à demanda por inferência de alto desempenho, responsiva em escala, mantendo baixos os requisitos de recursos e, proporcionando uma camada comum de inferência que suporta qualquer modelo, em qualquer acelerador, em qualquer ambiente.
A inferência é o motor de execução crítico da IA, onde modelos pré-treinados traduzem dados em impacto no mundo real. É o ponto central de interação com o usuário, exigindo respostas rápidas e precisas. À medida que os modelos de gen AI se tornam mais complexos e suas implantações em produção se expandem, a inferência pode se tornar um gargalo significativo, consumindo recursos de hardware, comprometendo a capacidade de resposta e inflando os custos operacionais. Servidores de inferência robustos não são mais um luxo, mas sim uma necessidade para desbloquear o verdadeiro potencial da IA em escala, navegando pelas complexidades técnicas com mais facilidade.
A Red Hat aborda diretamente esses desafios com o Red Hat AI Inference Server — uma solução de inferência aberta, projetada para funcionar com alto desempenho e equipada com as principais ferramentas de compressão e otimização de modelos. Essa inovação permite que as organizações aproveitem todo o poder transformador da gen AI, por meio experiências do usuário exponencialmente mais rápidas e uma liberdade única para escolher aceleradores de IA, modelos e ambientes de TI.
vLLM: ampliando a inovação em inferência
O Red Hat AI Inference Server é baseado no projeto vLLM, líder do setor, iniciado pela Universidade da Califórnia, Berkeley, em meados de 2023. Esse projeto comunitário oferece inferência de gen AI de alto rendimento, suporte a grandes contextos de entrada (input context), aceleração multi-GPUs de modelos, suporte para agrupamento contínuo (continuous batching) e muito mais.
O amplo suporte do vLLM a modelos disponíveis publicamente, aliado à sua integração desde o dia zero com modelos de ponta como DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi e outros, bem como com modelos de raciocínio abertos e de nível corporativo, como o Llama Nemotron — o posiciona como o padrão de fato para inovações futuras em inferência de IA. Provedores líderes de modelos avançados estão adotando cada vez mais o vLLM, consolidando seu papel essencial na definição do futuro da gen AI.
Apresentando o Red Hat AI Inference Server
O Red Hat AI Inference Server incorpora a inovação líder do vLLM e a transforma em capacidades de nível empresarial. O servidor está disponível como uma oferta conteinerizada independente ou como parte do RHEL AI e do Red Hat OpenShift AI.
Em qualquer ambiente de implantação, o Red Hat AI Inference Server fornece aos usuários uma distribuição sólida e com suporte no vLLM, além de:
- Ferramentas inteligentes para compressão de LLM com o objetivo de reduzir drasticamente o tamanho de modelos de IA fundamentais e ajustados, minimizando o consumo de performance enquanto preserva e potencialmente melhora a precisão dos modelos.
- Repositório de modelos otimizado, hospedado no perfil da Red Hat AI no Hugging Face, o qual oferece acesso instantâneo a uma coleção validada e otimizada de modelos de IA prontos para implantação em inferência, ajudando a acelerar a eficiência de 2 a 4 vezes sem comprometer a precisão dos modelos.
- Suporte corporativo da Red Hat e décadas de experiência para levar projetos comunitários a ambientes produtivos.
- Suporte de terceiros para dispor de ainda mais flexibilidade de implantação, permitindo que o Red Hat AI Inference Server seja implantado em outras plataformas Linux e Kubernetes de acordo com a Política de Suporte de Terceiros da Red Hat.
Visão da Red Hat: qualquer modelo, qualquer acelerador, qualquer nuvem
O futuro da IA deve ser definido por oportunidades ilimitadas e não restrito por silos de infraestrutura. A Red Hat enxerga um horizonte no qual as organizações possam implantar qualquer modelo, em qualquer acelerador, em qualquer nuvem, entregando uma experiência de usuário excepcional e mais consistente, sem custos exorbitantes. Para desbloquear o verdadeiro potencial dos investimentos em gen AI, as empresas precisam de uma plataforma universal de inferência — um novo padrão para inovações em IA contínuas e de alto desempenho, tanto no presente quanto nos próximos anos.
Assim como a Red Hat foi pioneira na transformação do Linux em base fundamental da TI moderna, a empresa está agora preparada para arquitetar o futuro da inferência de IA. O vLLM tem o potencial de se tornar peça-chave para uma inferência padronizada em gen AI, e a Red Hat está comprometida em construir um ecossistema próspero não apenas em torno da comunidade vLLM, mas também do llm-d, voltado para inferência distribuída em larga escala. A visão é clara: independentemente do modelo de IA, do acelerador subjacente ou do ambiente de implantação, a Red Hat pretende tornar o vLLM o padrão aberto definitivo para inferência na nova nuvem híbrida.
Red Hat Summit
Participe das keynotes principais do Red Hat Summit para ouvir as últimas novidades de executivos, clientes e parceiros da Red Hat:
- Infraestrutura moderna alinhada à IA empresarial —Terça-feira, 20 de maio, 8h -10h EDT (YouTube)
- A nuvem híbrida evolui para impulsionar a inovação empresarial — Quarta-feira, 21 de maio, 8h-9h30 EDT (YouTube)
Citações de apoio
Joe Fernandes, vice-presidente e gerente geral da unidade de negócios de IA, Red Hat
“A inferência é onde a verdadeira promessa da gen AI é cumprida, onde as interações dos usuários recebem respostas rápidas e precisas, entregues por um dado modelo, mas isso deve ser feito de maneira eficaz e eficiente também para os custos operacionais. O Red Hat AI Inference Server foi projetado para atender à demanda por inferência de alto desempenho, responsiva em escala, mantendo baixos os requisitos de recursos e, proporcionando uma camada comum de inferência que suporta qualquer modelo, em qualquer acelerador, em qualquer ambiente.”
Ramine Roane, vice-presidente corporativo, AI Product Management, AMD
“Em colaboração com a Red Hat, a AMD oferece soluções inovadoras para impulsionar uma IA generativa eficiente nas empresas. O Red Hat AI Inference Server habilitado em GPUs AMD Instinct™ equipa as organizações com recursos de inferência de IA de nível empresarial e orientados pela comunidade, apoiados por aceleradores de hardware totalmente validados.”
Jeremy Foster, vice-presidente sênior e gerente geral da Cisco
“As cargas de trabalho de IA precisam de velocidade, consistência e flexibilidade, e é exatamente para isso que o Red Hat AI Inference Server foi projetado. Essa inovação oferece à Cisco e à Red Hat oportunidades de continuar colaborando em novas maneiras de tornar as implantações de IA mais acessíveis, eficientes e escaláveis, ajudando as organizações a se prepararem para o futuro.”
Bill Pearson, vice-presidente, Data Center & AI Software Solutions and Ecosystem, da Intel
"A Intel está entusiasmada em colaborar com a Red Hat para habilitar o Red Hat AI Inference Server em aceleradores Intel® Gaudi®. Essa integração fornecerá aos nossos clientes uma solução aprimorada para otimizar e escalar a inferência de IA, proporcionando desempenho e eficiência avançados para uma ampla gama de aplicações de IA empresarial."
John Fanelli, vice-presidente, Enterprise Software, NVIDIA
“Inferência de alto desempenho permite que modelos e agentes de IA não apenas respondam, mas também raciocinem e se adaptem em tempo real. Com a computação aberta, completa e acelerada da NVIDIA e com o Red Hat AI Inference Server, os desenvolvedores podem executar raciocínio eficiente em escala através de nuvens híbridas, e implantar com confiança utilizando o Red Hat Inference Server com o novo design validado da NVIDIA Enterprise AI.”
Additional Resources
- Saiba mais sobre o Red Hat AI Inference Server
- Ouça dos executivos da Red Hat mais detalhes sobre o Red Hat AI Inference Server
- Descubra mais sobre o Red Hat AI
- Saiba mais sobre Red Hat OpenShift AI
- Saiba mais sobre Red Hat Enterprise Linux AI
- Leia mais sobre o projeto llm-d
- Conheça as atualizações mais recentes do Red Hat AI
- Descubra mais sobre Red Hat Summit
- Veja todos os anúncios da Red Hat na sala de notícias do Red Hat Summit
- Siga @RedHatSummit ou #RHSummit no X para receber atualizações do evento
Connect with Red Hat
- Descubra mais sobre a Red Hat
- Receba notícias na sala de notícias da Red Hat
- Leia o Red Hat blog
- Siga a Red Hat no X
- Siga a Red Hat no Instagram
- Siga a Red Hat no LinkedIn
- Veja vídeos da Red Hat no YouTube
- SOBRE A RED HAT
A Red Hat é líder em tecnologia de nuvem híbrida aberta, e proporciona uma base confiável, consistente e abrangente para uma inovação transformadora em TI e aplicações de inteligência artificial (IA). Seu portfólio de tecnologias de nuvem, desenvolvimento, IA, Linux e automação permite a implementação de qualquer aplicação, em qualquer lugar, desde data centers até a edge. Como líder mundial no fornecimento de soluções de software open source empresarial, a Red Hat investe em ecossistemas e comunidades abertas para resolver os desafios de TI do futuro. Por meio da colaboração, a Red Hat ajuda clientes e parceiros a construir, conectar, automatizar, proteger e gerenciar seus ambientes de TI, com o suporte de serviços de consultoria, treinamento e certificação reconhecidos mundialmente.
- DECLARAÇÕES PROSPECTIVAS
Exceto pelas informações históricas e discussões contidas aqui, as declarações contidas neste comunicado de imprensa podem constituir declarações prospectivas dentro do significado da Lei de Reforma da Litígios de Valores Mobiliários de 1995. As declarações prospectivas são baseadas nas suposições atuais da empresa sobre o desempenho futuro dos negócios e financeiros. Essas declarações envolvem uma série de riscos, incertezas e outros fatores que podem fazer com que os resultados reais sejam materialmente divergentes. Qualquer declaração prospectiva neste comunicado fala apenas na data em que foi feita. Exceto quando exigido por lei, a empresa não assume a obrigação de atualizar ou revisar qualquer declaração prospectiva.
###
Red Hat, Red Hat Enterprise Linux, o logo da Red Hat e OpenShift são marcas comerciais ou marcas registradas da Red Hat, Inc. ou suas subsidiárias nos EUA e outros países. Linux® é a marca registrada de Linus Torvalds nos EUA e outros países.