Pplware

Apple lança o “MGIE”, um modelo revolucionário de IA para edição de imagens

A Apple lançou um novo modelo de Inteligência Artificial (IA) de código aberto, denominado “MGIE”. Esta ferramenta pode editar imagens com base em instruções de linguagem natural. O MGIE, que significa Edição de Imagem Guiada por MLLM, utiliza modelos de linguagem multimodal de grande dimensão (MLLM) para interpretar os comandos do utilizador e efetuar manipulações ao nível dos píxeis.


De forma resumida, este modelo pode tratar de vários aspetos da edição, como a modificação ao estilo do Photoshop, a otimização global da fotografia e a edição local.

Então, o que é o MGIE?

O MGIE é o resultado de uma colaboração entre a Apple e investigadores da Universidade da Califórnia, em Santa Barbara. O modelo foi apresentado num artigo aceite na International Conference on Learning Representations (ICLR) 2024, um dos principais locais de investigação em IA.

O documento demonstra a eficácia do MGIE na melhoria das métricas automáticas e da avaliação humana, mantendo ao mesmo tempo uma eficiência de inferência competitiva.

Como funciona o MGIE?

O MGIE baseia-se na ideia de utilizar MLLMs, que são modelos de IA poderosos que podem processar texto e imagens, para melhorar a edição de imagens com base em instruções. Os MLLMs têm demonstrado capacidades notáveis na compreensão multimodal e na geração de respostas com consciência visual, mas não têm sido amplamente aplicados a tarefas de edição de imagens.

Este modelo integra os MLLMs no processo de edição de imagens de duas formas: Em primeiro lugar, utiliza MLLMs para obter instruções expressivas a partir da entrada do utilizador. Estas instruções são concisas e claras e fornecem uma orientação explícita para o processo de edição.

Por exemplo, se for dada a instrução “tornar o céu mais azul”, o MGIE pode produzir a instrução “aumentar a saturação da região do céu em 20%”.

Em segundo lugar, utiliza MLLMs para gerar imaginação visual, uma representação latente da edição desejada. Esta representação capta a essência da edição e pode ser utilizada para orientar a manipulação ao nível do píxel. Segundo é referido, esta nova tecnologia da Apple utiliza um novo esquema de formação de ponta a ponta que otimiza conjuntamente os módulos de derivação de instruções, imaginação visual e edição de imagens.

O que é que o MGIE pode fazer?

O MGIE pode lidar com uma vasta gama de cenários de edição, desde simples ajustes de cor a manipulações complexas de objetos. O modelo também pode efetuar edições globais e locais, dependendo da preferência do utilizador.

Algumas das características e capacidades do MGIE são:

Como utilizar o MGIE?

O MGIE está disponível como um projeto de código aberto no GitHub, onde os utilizadores podem encontrar o código, os dados e os modelos pré-treinados. O projeto também fornece um caderno de demonstração que mostra como utilizar o MGIE para várias tarefas de edição. Os utilizadores também podem experimentar o MGIE online através de uma demonstração web alojada no Hugging Face Spaces, uma plataforma para partilhar e colaborar em projetos de aprendizagem automática (ML).

O MGIE foi concebido para ser fácil de utilizar e flexível para personalizar. Os utilizadores podem fornecer instruções em linguagem natural para editar imagens, e o MGIE irá gerar as imagens editadas juntamente com as instruções derivadas. Os utilizadores também podem fornecer feedback ao MGIE para aperfeiçoar as edições ou solicitar edições diferentes. A MGIE também pode ser integrada noutras aplicações ou plataformas que necessitem da funcionalidade de edição de imagens.

Porque é que a MGIE é tão importante?

O MGIE é um avanço no domínio da edição de imagens com base em instruções, que é uma tarefa importante e exigente tanto para a IA como para a criatividade humana. O MGIE demonstra o potencial da utilização de MLLMs para melhorar a edição de imagens e abre novas possibilidades de interação e comunicação transmodal.

A comunicação transmodal refere-se à capacidade de transmitir uma mensagem através de múltiplos modais ou meios sensoriais. Isso significa que a informação pode ser transmitida não apenas através da linguagem escrita ou falada, mas também através de elementos visuais, táteis, sonoros e outros. Por exemplo, uma apresentação que combina texto, imagens, gráficos e áudio está a usar uma abordagem transmodal para comunicar a sua mensagem.

A MGIE não é apenas uma realização de investigação, mas também uma ferramenta prática e útil para vários cenários. A tecnologia pode ajudar os utilizadores a criar, modificar e otimizar imagens para fins pessoais ou profissionais, como as redes sociais, o comércio eletrónico, a educação, o entretenimento e a arte.

Com esta ferramenta os utilizadores têm a possibilidade de expressarem as suas ideias e emoções através de imagens e inspirá-los a explorar a sua criatividade.

Exit mobile version