A ferramenta de Inteligência Artificial (IA) mais famosa é, sem dúvidas, o ChatGPT. Esta tecnologia abriu uma espécie de “caixa de Pandora” e a empresa por trás deste santo graal do conhecimento, a OpenAI, lançou uma nova solução ainda mais poderosa. Chama-se GPT-4o.
GPT-4o quer ser a nova Siri, ou o novo Google Assistant, ou até a nova Alexa?
A OpenAI apresentou um novo modelo de IA generativa de referência chamado GPT-4o, que será lançado “iterativamente” nos produtos da empresa para programadores e consumidores durante as próximas semanas. A CTO da OpenAI, Muri Murati, disse que o GPT-4o fornece inteligência de “nível GPT-4”, mas melhora as capacidades do GPT-4 em texto e visão, bem como em áudio.
O GPT-4o raciocina através da voz, do texto e da visão.
Disse Murati numa apresentação nos escritórios da OpenAI.
O GPT-4, o anterior modelo líder da OpenAI, foi treinado com uma combinação de imagens e texto, e podia analisar imagens e texto para realizar tarefas como extrair texto de imagens ou mesmo descrever o conteúdo dessas imagens. Mas o GPT-4o acrescenta a fala à mistura.
O que é que isto permite, concretamente? Uma série de coisas!
O GPT-4o melhora muito a experiência do ChatGPT, este que é o chatbot viral da OpenAI alimentado por IA.
O ChatGPT oferece há muito tempo um modo de voz que transcreve o texto do ChatGPT usando um modelo de texto para fala. O GPT-4o reforça este modo, permitindo aos utilizadores interagir com o ChatGPT como um assistente.
Por exemplo, os utilizadores podem fazer uma pergunta ao ChatGPT – alimentado pelo GPT-4o – e interromper o ChatGPT enquanto este responde. O modelo oferece uma capacidade de resposta “em tempo real”, diz a OpenAI, e pode até captar a emoção na voz de um utilizador – e gerar voz numa “gama de diferentes estilos emotivos”.
Noutras notícias, a OpenAI está a lançar a versão desktop do ChatGPT e uma interface de utilizador renovada.
Sabemos que estes modelos [estão a ficar] cada vez mais complexos, mas queremos que a experiência de interação se torne mais natural, fácil e que não se concentre de todo na UI (user interface ou interface de utilizador), mas apenas na colaboração com [GPTs].
Disse Murati.
Poderemos estar a caminhar rapidamente para um assistente que nos responderá em “viva voz” e sobre qualquer assunto.