Justamente quando o Google anunciou seu modelo Gemini 1.5 Pro de próxima geração, a OpenAI choveu no desfile do Google com o anúncio surpresa do Sora, um modelo inovador de IA de texto para vídeo. O novo modelo de geração de vídeo, Sora, é diferente de tudo que vimos até agora na indústria de IA. Pelos exemplos que vimos, modelos de geração de vídeo como Gen-2 e Pika da Runway são insignificantes em comparação com o modelo Sora. Aqui está tudo o que você precisa saber sobre o novo modelo Sora da OpenAI.
Sora pode gerar vídeos de até 1 minuto
O modelo de IA de texto para vídeo da OpenAI, Sora, pode gerar resultados altamente vídeos detalhados (até 1080p) a partir de instruções textuais. Ele segue extremamente bem as instruções do usuário e simula o mundo físico em movimento. A parte mais impressionante é que Sora pode gerar vídeos de IA de até um minuto, o que é muito mais longo do que os modelos existentes de texto para vídeo, que geram vídeos de até três ou quatro segundos.
OpenAI apresentou muitos exemplos visuais para demonstrar a poderosa capacidade de Sora. O criador do ChatGPT diz que Sora tem um profundo conhecimento da linguagem e pode gerar “personagens atraentes que expressam emoções vibrantes“. Ele também pode criar várias tomadas diferentes em um único vídeo, com personagens e cenas persistindo ao longo do vídeo.
Dito isto, Sora também tem algumas deficiências. Atualmente, não entende de física do mundo real muito bem. OpenAI explica: “Uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida“.
Quanto à arquitetura do modelo, OpenAI diz que Sora é um modelo de difusão construído na arquitetura do transformador. Ele usa a técnica de recaptação introduzida com Dall -E 3 que gera um prompt altamente descritivo a partir de um exemplo de prompt do usuário. Além da geração de texto para vídeo, Sora também pode criar vídeos a partir de imagens estáticas, animá-los e estender o quadro em formato de vídeo.
Olhando para os vídeos de tirar o fôlego gerados usando o modelo Sora, muitos especialistas acreditam que Sora pode ser treinado em dados gerados sinteticamente a partir de Motor irreal 5 dadas as semelhanças com simulações UE5. Os vídeos gerados pelo Sora não possuem a distorção usual de mãos e caracteres que geralmente vemos em outros modelos de difusão. Também pode estar usando Neural Radiance Field (NeRF) para gerar cenas 3D a partir de imagens 2D.
Artigos recomendados
10 melhores geradores de vídeo de IA (ferramentas de IA de texto para vídeo)
Arjun Sha
29 de junho de 2023
Como gerar vídeos de IA com ChatGPT sem esforço
Upanishad Sharma
1º de julho de 2023
Seja qual for o caso, parece que a OpenAI fez outro avanço com Sora, e isso é palpável pelas observações finais da OpenAI sobre seu blogenfatizando a obtenção de AGI.
Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar a AGI.
Sora é não disponível para usuários regulares para tentar no momento. Atualmente, a OpenAI está se unindo a especialistas para avaliar o modelo quanto a danos e riscos. A empresa também está dando acesso ao Sora a vários cineastas, designers e artistas para obter feedback e melhorar o modelo antes do lançamento público.