A Apple lançou um novo modelo de Inteligência Artificial (IA) de código aberto, denominado “MGIE”. Esta ferramenta pode editar imagens com base em instruções de linguagem natural. O MGIE, que significa Edição de Imagem Guiada por MLLM, utiliza modelos de linguagem multimodal de grande dimensão (MLLM) para interpretar os comandos do utilizador e efetuar manipulações ao nível dos píxeis.
De forma resumida, este modelo pode tratar de vários aspetos da edição, como a modificação ao estilo do Photoshop, a otimização global da fotografia e a edição local.
Então, o que é o MGIE?
O MGIE é o resultado de uma colaboração entre a Apple e investigadores da Universidade da Califórnia, em Santa Barbara. O modelo foi apresentado num artigo aceite na International Conference on Learning Representations (ICLR) 2024, um dos principais locais de investigação em IA.
O documento demonstra a eficácia do MGIE na melhoria das métricas automáticas e da avaliação humana, mantendo ao mesmo tempo uma eficiência de inferência competitiva.
Como funciona o MGIE?
O MGIE baseia-se na ideia de utilizar MLLMs, que são modelos de IA poderosos que podem processar texto e imagens, para melhorar a edição de imagens com base em instruções. Os MLLMs têm demonstrado capacidades notáveis na compreensão multimodal e na geração de respostas com consciência visual, mas não têm sido amplamente aplicados a tarefas de edição de imagens.
Este modelo integra os MLLMs no processo de edição de imagens de duas formas: Em primeiro lugar, utiliza MLLMs para obter instruções expressivas a partir da entrada do utilizador. Estas instruções são concisas e claras e fornecem uma orientação explícita para o processo de edição.
Por exemplo, se for dada a instrução “tornar o céu mais azul”, o MGIE pode produzir a instrução “aumentar a saturação da região do céu em 20%”.
Em segundo lugar, utiliza MLLMs para gerar imaginação visual, uma representação latente da edição desejada. Esta representação capta a essência da edição e pode ser utilizada para orientar a manipulação ao nível do píxel. Segundo é referido, esta nova tecnologia da Apple utiliza um novo esquema de formação de ponta a ponta que otimiza conjuntamente os módulos de derivação de instruções, imaginação visual e edição de imagens.
O que é que o MGIE pode fazer?
O MGIE pode lidar com uma vasta gama de cenários de edição, desde simples ajustes de cor a manipulações complexas de objetos. O modelo também pode efetuar edições globais e locais, dependendo da preferência do utilizador.
Algumas das características e capacidades do MGIE são:
- Edição expressiva baseada em instruções: O MGIE pode produzir instruções concisas e claras que orientam eficazmente o processo de edição. Isto não só melhora a qualidade das edições, como também melhora a experiência geral do utilizador.
- Modificação ao estilo do Photoshop: O modelo pode efetuar edições comuns ao estilo do Photoshop, tais como cortar, redimensionar, rodar, inverter e adicionar filtros. MGIE também pode aplicar edições mais avançadas, como alterar o fundo, adicionar ou remover objetos e misturar imagens.
- Otimização global de fotografias: O MGIE pode otimizar a qualidade global de uma fotografia, como o brilho, o contraste, a nitidez e o equilíbrio de cores. O modelo também pode aplicar efeitos artísticos, como esboços, pinturas e desenhos animados.
- Edição local: A tecnologia pode editar regiões ou objetos específicos numa imagem, tais como rostos, olhos, cabelo, roupas e acessórios. O modelo também pode modificar os atributos destas regiões ou objetos, tais como a forma, o tamanho, a cor, a textura e o estilo.
Como utilizar o MGIE?
O MGIE está disponível como um projeto de código aberto no GitHub, onde os utilizadores podem encontrar o código, os dados e os modelos pré-treinados. O projeto também fornece um caderno de demonstração que mostra como utilizar o MGIE para várias tarefas de edição. Os utilizadores também podem experimentar o MGIE online através de uma demonstração web alojada no Hugging Face Spaces, uma plataforma para partilhar e colaborar em projetos de aprendizagem automática (ML).
O MGIE foi concebido para ser fácil de utilizar e flexível para personalizar. Os utilizadores podem fornecer instruções em linguagem natural para editar imagens, e o MGIE irá gerar as imagens editadas juntamente com as instruções derivadas. Os utilizadores também podem fornecer feedback ao MGIE para aperfeiçoar as edições ou solicitar edições diferentes. A MGIE também pode ser integrada noutras aplicações ou plataformas que necessitem da funcionalidade de edição de imagens.
Porque é que a MGIE é tão importante?
O MGIE é um avanço no domínio da edição de imagens com base em instruções, que é uma tarefa importante e exigente tanto para a IA como para a criatividade humana. O MGIE demonstra o potencial da utilização de MLLMs para melhorar a edição de imagens e abre novas possibilidades de interação e comunicação transmodal.
A comunicação transmodal refere-se à capacidade de transmitir uma mensagem através de múltiplos modais ou meios sensoriais. Isso significa que a informação pode ser transmitida não apenas através da linguagem escrita ou falada, mas também através de elementos visuais, táteis, sonoros e outros. Por exemplo, uma apresentação que combina texto, imagens, gráficos e áudio está a usar uma abordagem transmodal para comunicar a sua mensagem.
A MGIE não é apenas uma realização de investigação, mas também uma ferramenta prática e útil para vários cenários. A tecnologia pode ajudar os utilizadores a criar, modificar e otimizar imagens para fins pessoais ou profissionais, como as redes sociais, o comércio eletrónico, a educação, o entretenimento e a arte.
Com esta ferramenta os utilizadores têm a possibilidade de expressarem as suas ideias e emoções através de imagens e inspirá-los a explorar a sua criatividade.