OpenAI lança Sora: um modelo inovador de IA de texto para vídeo

Justamente quando o Google anunciou seu modelo Gemini 1.5 Pro de próxima geração, a OpenAI choveu no desfile do Google com o anúncio surpresa do Sora, um modelo inovador de IA de texto para vídeo. O novo modelo de geração de vídeo, Sora, é diferente de tudo que vimos até agora na indústria de IA. Pelos exemplos que vimos, modelos de geração de vídeo como Gen-2 e Pika da Runway são insignificantes em comparação com o modelo Sora. Aqui está tudo o que você precisa saber sobre o novo modelo Sora da OpenAI.

Sora pode gerar vídeos de até 1 minuto

O modelo de IA de texto para vídeo da OpenAI, Sora, pode gerar resultados altamente vídeos detalhados (até 1080p) a partir de instruções textuais. Ele segue extremamente bem as instruções do usuário e simula o mundo físico em movimento. A parte mais impressionante é que Sora pode gerar vídeos de IA de até um minuto, o que é muito mais longo do que os modelos existentes de texto para vídeo, que geram vídeos de até três ou quatro segundos.

Prompt: “Um trailer de filme apresentando as aventuras do homem espacial de 30 anos usando um capacete de motocicleta tricotado de lã vermelha, céu azul, deserto de sal, estilo cinematográfico, filmado em filme 35mm, cores vivas.” pic.twitter.com/0JzpwPUGPB– OpenAI (@OpenAI) 15 de fevereiro de 2024

OpenAI apresentou muitos exemplos visuais para demonstrar a poderosa capacidade de Sora. O criador do ChatGPT diz que Sora tem um profundo conhecimento da linguagem e pode gerar “personagens atraentes que expressam emoções vibrantes“. Ele também pode criar várias tomadas diferentes em um único vídeo, com personagens e cenas persistindo ao longo do vídeo.

Dito isto, Sora também tem algumas deficiências. Atualmente, não entende de física do mundo real muito bem. OpenAI explica: “Uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida“.

Quanto à arquitetura do modelo, OpenAI diz que Sora é um modelo de difusão construído na arquitetura do transformador. Ele usa a técnica de recaptação introduzida com Dall -E 3 que gera um prompt altamente descritivo a partir de um exemplo de prompt do usuário. Além da geração de texto para vídeo, Sora também pode criar vídeos a partir de imagens estáticas, animá-los e estender o quadro em formato de vídeo.

Minha opinião sobre Open AI Sora:
Se você pretende criar uma tonelada de vídeo HQ de diferentes ângulos, você precisa simulá-lo. Porém, há muitas coisas que me levam a acreditar que o UE5 está sendo usado em parte para criar os dados de treinamento.
Um — Ralph Brooks (@ralphbrooks) 15 de fevereiro de 2024

Olhando para os vídeos de tirar o fôlego gerados usando o modelo Sora, muitos especialistas acreditam que Sora pode ser treinado em dados gerados sinteticamente a partir de Motor irreal 5 dadas as semelhanças com simulações UE5. Os vídeos gerados pelo Sora não possuem a distorção usual de mãos e caracteres que geralmente vemos em outros modelos de difusão. Também pode estar usando Neural Radiance Field (NeRF) para gerar cenas 3D a partir de imagens 2D.

Artigos recomendados

10 melhores geradores de vídeo de IA (ferramentas de IA de texto para vídeo)

Arjun Sha

29 de junho de 2023

Como gerar vídeos de IA com ChatGPT sem esforço

Upanishad Sharma

1º de julho de 2023

Seja qual for o caso, parece que a OpenAI fez outro avanço com Sora, e isso é palpável pelas observações finais da OpenAI sobre seu blogenfatizando a obtenção de AGI.

Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar a AGI.

Sora é não disponível para usuários regulares para tentar no momento. Atualmente, a OpenAI está se unindo a especialistas para avaliar o modelo quanto a danos e riscos. A empresa também está dando acesso ao Sora a vários cineastas, designers e artistas para obter feedback e melhorar o modelo antes do lançamento público.