A Inteligência Artificial (IA), treinada por nós, é capaz de gerar coisas inacreditáveis, fazendo os utilizadores questionarem a veracidade dos conteúdos. Indo além do texto, a OpenAI, mãe do ChatGPT, lançou, agora, um modelo capaz de criar vídeos incrivelmente realistas com base em orientações escritas. Conheça o Sora!
No site oficial da OpenAI, lê-se que a empresa está a “ensinar a IA a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que impliquem uma interação com o mundo real”.
De nome Sora, a criação da OpenAI trata-se de um modelo text-to-video que consegue gerar vídeos de até um minuto, assegurando a qualidade visual e a conformidade com as instruções do utilizador.
Conheça o Sora, o novo modelo de IA da mãe do ChatGPT
O modelo ficou disponível, ontem, para os red teamers (profissionais de cibersegurança), que avaliarão áreas críticas e trabalharão para detetar danos ou riscos.
Conforme informação da empresa, o progresso da sua investigação está a ser partilhado “antecipadamente para começar a trabalhar e obter feedback de pessoas fora da OpenAI e para dar ao público uma noção das capacidades de IA que estão no horizonte”.
Além dos profissionais de cibersegurança, a OpenAI disponibilizou o novo modelo a artistas visuais, designers e cineastas, por forma a reunir feedback sobre o desenvolvimento da ferramenta, no sentido de ser mais útil para profissionais criativos.
No Twitter, o utilizador @duborges compilou alguns vídeos que os entusiastas da tecnologia vão querer espreitar; o nível de realismo é surpreendente:
This video was generated by Sora.
That’s the new model by OpenAI. The most advanced text-to-video tool created so far.
I’ll share the videos here. Absolutely insane.
Prompt: This close-up shot of a Victoria crowned pigeon showcases its striking blue plumage and red chest. Its… pic.twitter.com/ktvReYWvGZ
— Eduardo Borges (@duborges) February 15, 2024
O Sora é capaz de gerar cenas complexas com vários elementos, tipos de movimento específicos e detalhes muito precisos de contexto e background.
O modelo entende não apenas o que o utilizador pediu no prompt, mas também como essas coisas existem no mundo físico.
Aliás, por ter “um profundo conhecimento da linguagem”, interpreta com precisão as instruções dadas pelo utilizador e gera personagens “convincentes que expressam emoções vibrantes”. Além disso, é capaz de gerar vários “takes” num único vídeo, mantendo as personagens e o estilo visual, precisamente.
Apesar dos vídeos partilhados pela OpenAI, “o modelo tem fraquezas”, uma vez que “pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito”.
Por exemplo, uma pessoa pode dar uma mordida num biscoito, mas depois o biscoito pode não ter a marca dessa mordida.
Mais, o modelo “também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmara”.
De qualquer modo, vendo os vídeos e confiando nas suas potenciais capacidades, sabemos que nos espera um modelo muito interessante. Por cá, já estamos ansiosos por experimentar.