A NVIDIA lança o NVIDIA Cosmos™ 3, um modelo fundacional aberto de última geração para IA física, construído sobre uma inovadora arquitetura de mistura de transformers (mixture-of-transformers) que combina raciocínio visual, geração de mundo e previsão de ações em um único sistema.
+ NOTÍCIAS NO GRUPO NM DO WHATSAPP
O Cosmos 3 é o primeiro totalmente aberto do mundo capaz de compreender e gerar nativamente texto, imagens, vídeo, som ambiente e ações com precisão física de ponta, reduzindo os ciclos de treinamento e avaliação de IA física de meses para dias.

A NVIDIA também lança a NVIDIA Cosmos Coalition, uma colaboração global entre construtores de modelos de mundo e desenvolvedores de IA — incluindo Agile Robots, Black Forest Labs, Generalist, LTX, Runway e Skild AI — trabalhando em conjunto para impulsionar modelos de mundo de próxima geração.
“O big bang da IA física está logo ali, graças aos avanços em linguagem de raciocínio multimodal, visão e modelos de mundo”, diz Jensen Huang, fundador e CEO da NVIDIA. “A família Cosmos 3 de omnimodels abertos e de fronteira oferece aos desenvolvedores um salto geracional na capacidade de construir robôs, veículos autônomos e IA de visão que percebem, raciocinam, planejam e agem no mundo físico.”
“O grande desafio das empresas hoje é dado e tempo de treinamento. Quando você reduz os ciclos de meses para dias e abre o modelo para a comunidade, muda completamente quem consegue aproveitar da tecnologia e isso amplia o mercado para todo mundo. Com o Cosmos 3 aberto e nas mãos dos desenvolvedores, estamos construindo a base sobre a qual a próxima década de robôs, veículos autônomos e sistemas de visão vai ser desenhada” afirma Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.
Uma nova arquitetura para IA física
O Cosmos 3 enfrenta um desafio fundamental da IA física: permitir que robôs, veículos autônomos (AVs) ou agentes de visão generalizem no mundo real com dados de treinamento limitados e pilhas de simulação fragmentadas.
A arquitetura de mistura de transformers (mixture-of-transformers) do modelo combina um transformer de raciocínio com um transformer especialista em geração, permitindo que o Cosmos 3 compreenda interações entre objetos, movimento e relações espaço-temporais antes de gerar vídeo e trajetórias de ação.
Treinado em um dos maiores conjuntos de dados multimodais de IA física — incluindo bilhões de amostras entre texto, imagem, vídeo, som e trajetórias de ação —, o modelo oferece aos desenvolvedores uma poderosa base pré-treinada para construir sistemas de IA física com menos dados e menores custos de treinamento.
Os desenvolvedores podem usar o Cosmos 3 como:
Um modelo de linguagem visual que compreende e raciocina entre modalidades;
Um modelo de mundo ou modelo de fundação de vídeo que simula ambientes físicos e prevê estados futuros do mundo para treinamento e avaliação;
A base para modelos de ação de mundo que ajudam a treinar robôs para executar tarefas específicas.
Os modelos Cosmos 3 entregam resultados de ponta em benchmarks de IA física. Entre os modelos abertos, ele ocupa o primeiro lugar em Artificial Analysis, Physics-IQ, PAI-Bench e R-Bench em precisão de geração de mundo; RoboLab e RoboArena em política de ação; e nos rankings VANTAGE-Bench e TAR em compreensão visual.
A linha Cosmos 3 oferece aos desenvolvedores opções para diferentes estágios do desenvolvimento de IA física:
Cosmos 3 Super para pós-treinamento de modelos de robótica e AV que exigem a mais alta precisão física e qualidade de geração;
Cosmos 3 Nano para vídeo de alta qualidade e raciocínio de ação em frações de segundo;
Cosmos 3 Edge, em breve, para inferência em tempo real na edge.
A Cosmos Coalition acelera o desenvolvimento de modelos de mundo abertos
A Cosmos Coalition é uma colaboração global entre construtores de modelos de mundo, desenvolvedores de IA e líderes em IA física para impulsionar modelos de mundo abertos em diversos setores, permitindo que os membros contribuam com modelos, pesquisa e técnicas de avaliação enquanto utilizam as tecnologias do Cosmos 3, ferramentas de treinamento e a infraestrutura NVIDIA DGX™ Cloud para treinamento em larga escala.
Os membros fundadores da coalizão incluem Agile Robots, Black Forest Labs, Generalist, LTX, Runway e Skild AI. Ao construir de forma aberta e contribuir em um ecossistema compartilhado, a coalizão busca viabilizar inovação mais rápida, maior interoperabilidade e avanços mais ágeis em IA física.
Desenvolvedores constroem sobre o Cosmos
A plataforma Cosmos potencializa a pilha de IA física da NVIDIA para acelerar fluxos de trabalho de treinamento e avaliação em diversos setores. A plataforma agora inclui novos conjuntos de dados para robótica, física, movimento humano, condução autônoma, segurança em armazéns e raciocínio espacial, além de novas skills de agentes de IA física para reconstrução neural de cenas, geração de imagens de defeitos e ampliação de vídeo.
Desenvolvedores de IA física estão construindo sobre a plataforma Cosmos em diversos setores — Agile Robots, Doosan Robotics, LG Electronics, Samsung Electronics e Skild AI em robótica; Li Auto em AVs; e Centific, Fogsphere, Linker Vision, Milestone Systems e Yuan em agentes de IA de visão para impulsionar aplicações de IA industrial e espaços inteligentes.
Disponibilidade
O Cosmos 3 Super e o Cosmos 3 Nano já estão disponíveis, com o Cosmos 3 Edge chegando em breve para inferência em tempo real. Os desenvolvedores podem experimentar o Cosmos 3 em build.nvidia.com, baixar modelos abertos no Hugging Face, personalizar modelos e gerar dados sintéticos com o Hugging Face Diffusers e recursos no GitHub, além de implantar os modelos como microsserviços NVIDIA NIM™.
Construtores de modelos e fornecedores de software podem acelerar o acesso, a personalização e a implantação do Cosmos para cargas de trabalho essenciais de raciocínio e geração de dados sintéticos, usando habilidades de agentes de IA física no GitHub por meio de serviços de inferência e parceiros de infraestrutura em nuvem, incluindo Baseten, CoreWeave, Microsoft Azure, Nebius, Deep Infra e Classmethod.
Assista ao keynote de Huang, saiba mais no NVIDIA GTC Taipei e explore estas sessões sobre IA física.
Sobre a NVIDIA
Desde sua fundação em 1993, a NVIDIA (NASDAQ: NVDA) tem sido pioneira em computação acelerada. A invenção da GPU pela empresa em 1999 estimulou o crescimento do mercado de games para PC, redefiniu a computação gráfica, iniciou a era da IA moderna e tem ajudado a digitalização industrial em todos os mercados. A NVIDIA agora é uma empresa de infraestrutura de computação full-stack com soluções em escala de data center que estão revolucionando o setor.
Leia + sobre tecnologia e ciência