Microsoft lança o Phi-4-multimodal: uma IA que processa simultaneamente texto, imagem e voz
A Microsoft apresentou o Phi-4-multimodal e o Phi-4-mini, os mais recentes membros da sua família de small language models (SLM). O Phi-4-multimodal destaca-se por ser o primeiro modelo da empresa capaz de processar simultaneamente texto, imagem e voz.
Eficiência e escalabilidade foram o centro do desenvolvimento
Segundo uma publicação da Microsoft, o Phi-4-Multimodal foi concebido com uma arquitetura baseada em 5,6 mil milhões de parâmetros. O modelo integra diferentes "modalidades" de input através de uma combinação de Low-Rank Adaptations (LoRAs). A utilização de técnicas de cross-modal learning permite um melhor raciocínio e interações mais contextuais.
A Microsoft garante que este novo modelo apresenta um vocabulário mais abrangente e suporte para várias línguas, o que aumenta a sua precisão no processamento de linguagem. Além disso, o Phi-4-multimodal foi otimizado para inferência de baixa latência, o que permite executá-lo eficientemente em equipamentos de menor capacidade.
Os criadores do Phi-4-multimodal sublinham que o modelo foi desenhado para ser eficiente e escalável, duas características cada vez mais valorizadas no setor da inteligência artificial (IA). Com a ascensão de modelos compactos, como os desenvolvidos pela DeepSeek, os SLM começam a ser vistos como alternativas viáveis aos LLMs.
Phi-4-multimodal supera modelos de referência da Google e da Anthropic
Nos benchmarks, o Phi-4-multimodal demonstrou resultados superiores a modelos especializados como o WhisperV3 e o SeamlessM4T-v2-Large em automatic speech recognition (ASR) e tradução de áudio.
Além disso, revelou capacidades avançadas em tarefas de visão computacional, incluindo optical character recognition (OCR), interpretação de documentos e gráficos, bem como raciocínio visual aplicado à ciência.
Apesar da sua arquitetura compacta, o modelo consegue competir eficazmente com alternativas de maior dimensão, como o Gemini-2-Flash-lite e o Claude-3.5-Sonnet, em tarefas multimodais.
No entanto, apresenta algumas limitações em perguntas e respostas baseadas em voz, ficando atrás de modelos como o Gemini-2.0-Flash e o GPT-4o. Esta diferença de desempenho deve-se ao tamanho reduzido do modelo, que limita a sua capacidade de retenção de conhecimento factual. A Microsoft já adiantou que está a trabalhar para otimizar esta vertente em futuras versões.
Estão a ser desenvolvidos esforços para melhorar esta capacidade nas próximas iterações.
Além do Phi-4-multimodal, a Microsoft revelou também o Phi-4-mini, um modelo concebido especificamente para tarefas baseadas em texto. Com uma arquitetura otimizada para processamento eficiente, consegue interpretar entradas textuais sem comprometer a precisão ou a velocidade.
Esta característica torna-o ideal para aplicações como chatbots e assistentes virtuais, onde a compreensão avançada da linguagem natural é essencial. O Phi-4-multimodal e o Phi-4-mini já estão disponíveis em plataformas como Azure AI Foundry, Hugging Face e o NVIDIA API Catalog.
Leia também: