A OpenAI apresentou esta semana o Sora,

seu modelo de IA generativa que transforma texto em vídeo. Imagens realistas e cenas de até um minuto são criadas a partir de textos descritivos.

Segundo a empresa, Sora é capaz de gerar imagens complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo do vídeo. O modelo entenderia não apenas o que o usuário descreveu, mas como é aquilo no mundo físico. Sora também pode criar várias tomadas em um único vídeo gerado.

A OpenAI admite que o modelo text-to-video é falho e apresenta pontos fracos. Pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito.

O exemplo dado na divulgação da plataforma foi uma pessoa dando uma mordida em um biscoito, mas, logo em seguida, a marca da mordida pode sumir.


Outra falha observada pela empresa é que Sora pode confundir detalhes especiais de um prompt, misturando, por exemplo, esquerda com direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como uma câmera seguir uma trajetória específica.

 

PARTICIPE DO GRUPO DO NOVO MOMENTO NO WHATSAPP