OpenAI gastou US$ 78 milhões para fazer o mesmo que a Alibaba fez por US$ 500 mil

15 Set 2025 · Inteligência Artificial 13 Comentários

A corrida pela supremacia na inteligência artificial (IA) não se mede apenas pela potência, mas cada vez mais pela eficiência. A Alibaba acaba de demonstrar que é possível treinar modelos de topo com uma fração do custo dos seus concorrentes, como a OpenAI.

A nova era de eficiência da Alibaba

A Alibaba Cloud, o braço de infraestrutura na nuvem da gigante tecnológica chinesa, surpreendeu o mercado ao apresentar a sua nova família de Large Language Models (LLM), a Qwen3-Next. Descritos pela empresa como "o futuro dos LLMs eficientes", estes modelos representam um salto quântico em termos de otimização de recursos.

Para se ter uma ideia, são 13 vezes mais pequenos que o modelo mais robusto que a própria empresa havia lançado apenas uma semana antes.

Dentro desta nova família, o destaque vai para o Qwen3-Next-80B-A3B. Segundo os seus criadores, este modelo não só é até 10 vezes mais rápido que o seu antecessor, o Qwen3-32B, como também atinge esta performance com uma redução impressionante de 90% nos custos associados ao treino.

Para contextualizar a magnitude desta conquista, basta olhar para os custos da concorrência. De acordo com o AI Index Report da Universidade de Stanford, o treino do GPT-4 custou à OpenAI cerca de 78 milhões de dólares em poder computacional. A Google investiu ainda mais no Gemini Ultra, com um valor estimado de 191 milhões de dólares.

Em contraste, estima-se que o treino do Qwen3-Next terá custado apenas 500.000 dólares. Embora a Alibaba não tenha confirmado valores exatos, o seu artigo oficial revela que o Qwen3-Next-80B-A3B utilizou "apenas 9,3% do custo computacional (horas de GPU)" do modelo anterior, o Qwen3-32B.

Qual é o segredo para tamanha eficiência?

Os modelos Qwen3-Next utilizam a arquitetura Mixture of Experts (MoE), que divide o modelo em várias sub-redes neuronais especializadas, conhecidas como "especialistas".

A Alibaba elevou esta abordagem a um novo patamar, utilizando 512 especialistas - um número superior aos 256 do DeepSeek-V3 ou aos 384 do Kimi-K2 - mas mantendo apenas 10 ativos em simultâneo, otimizando drasticamente o processo.

O segundo pilar desta eficiência é uma técnica de "atenção híbrida" chamada Gated DeltaNet, desenvolvida em colaboração pelo MIT e pela NVIDIA. Esta tecnologia refina a forma como o modelo processa a informação de entrada, determinando de forma inteligente que dados são cruciais e quais podem ser descartados.

O resultado é um mecanismo de atenção preciso e extremamente económico em termos de recursos computacionais.

Apesar do seu baixo custo de treino, o desempenho do Qwen3-Next-80B-A3B é notável. Em testes de desempenho realizados pela Artificial Analysis, o modelo da Alibaba superou concorrentes diretos como o DeepSeek R1 e o Kimi-K2. Embora não destrua os gigantes do mercado como o GPT-4, o seu rendimento é excecional quando se considera o investimento necessário.

Este lançamento reflete uma tendência crescente na indústria: a procura por modelos mais pequenos, especializados e eficientes. A Alibaba prova agora que é possível alcançar um desempenho de topo sem necessitar de um orçamento multimilionário.

Leia também:

“Sistema capitalista”: padrinho da IA diz que ela vai criar muito desemprego, mas disparar lucros

Acompanhe o Pplware no Google Notícias

Propor Revisão Proponha uma correção, faça uma sugestão

Autor: Rui Neto

Tags: Alibaba eficiência modelo

Comentários13

Hugo Nabais says:

15 de Setembro de 2025 às 23:19

Tenho testado este modelo Qwen3 Next 80B localmente e tal como outros MoE a experiencia nem sempre é a melhor. Dá ideia que por vezes a escolha do “expert” acerta ao lado. No entanto é muito rápido como seria de esperar com esta técnica.

Responder
- Zé Fonseca A. says:
  
  16 de Setembro de 2025 às 11:28
  
  Mas porque raio andas a testar llms localmente? Podes fazê-lo por meia dúzia de euros em qualquer public cloud
  
  Responder
  - Hugo Nabais says:
    
    16 de Setembro de 2025 às 11:45
    
    Tenho acesso a servidores com 512gb ram num data center que giro. Basicamente posso, tenho recursos testei… É isso
    
    Responder
    - Zé Fonseca A. says:
      
      16 de Setembro de 2025 às 12:53
      
      que importa RAM e CPU, corres isso em 1/100 do tempo com determinados GPUs em cloud publica
      
      Responder
      - Técnico Meo says:
        
        16 de Setembro de 2025 às 13:28
        
        Pra ter offline em casa. Mas como fazes, dá ai uma dica ao pessoal. É através de API? Como fazes o loading do modelo? Parece interessante
      - Hugo Nabais says:
        
        16 de Setembro de 2025 às 13:39
        
        Neste caso como não há “quantization” usei um servidor com 96 cores/512GB RAM, e tenho ideia que consegui 10 tokens/s +/-. Para os meus testes chegou e sobrou. Praticamente só fiz questões de lógica, raciocino, matemática, programação, numa ótica de comparação com outros modelos. E fui fazendo literalmente em paralelo com o meu trabalho. Enviava as prompts e passado algum tempo ia ver os resultados. Não foi rápido, também não foi lento.
        Deixa-me que te diga que com GPUs não conseguia 100 vezes mais velocidade, mas acredito que umas 20 vezes mais rápido seria sem dúvida.
        Se eu quiser algo mais a sério ou complexo, tenho outros meios com GPU, mas que de momento estavam “ocupados” e/ou os que havia não tinham VRAM para este modelo não “quantizado”.
        Como disse para os meus testes rápidos chegou e sobrou e não tive necessidade de utilizar nada mais rápido.
        
        Tendo acesso aos recursos que tenho, não me faz sentido subscrever clouds. Mas se precisar de “processar” algo complexo e /ou tiver pressa claro que nessa altura é uma opção.
        
        Eu no dia a dia nunca iria utilizar um modelo assim não “quantizado” fp16. É estupidamente demasiado pesado em termos de recursos, para pouco retorno.
        No dia a dia para coisas a sério uso máquinas com GPU e quantização Q8 ou Q6_K dependendo do modelo LLM e lá está, não preciso de subscrever nada e tenho respostas na casa dos 50 a 100 tokens/s. Que é mais do que suficiente para mim.
        
        De qualquer forma obrigado pela preocupação, claro.
      - Técnico Meo says:
        
        16 de Setembro de 2025 às 14:43
        
        Boa. Em casa, modelos que consiga correr F16 só mesmo os pequenos. Os outros, alguns com offloading e de preferência unsloth Q6K-xl UD ou até eventualmente Q5 do mesmo. Ou bartowski. Agora o que o Fonseca estava a dizer também parece interessante, alugar uma gpu online. Só não estou a ver como se faz todo o processo
      - Zé Fonseca A. says:
        
        16 de Setembro de 2025 às 22:10
        
        A forma mais fácil e usares Cloud Run, quase não precisas de saber código, há aí uns cursos de meia dúzia de horas para te ajudarem a correres modelos desses em menos de 1-2h, temos aqui uns miúdos a brincar nuns labs com isso e a dar grande show com ideias muito boas e muito pouco esforço.
        Se for uma coisa mais a sério sugiro GKE, é o que estamos a fazer aqui, temos tudo em cima de kubernetes, facilmente pegamos e mandamos isso para outro cloud provider ou para on prem, onde der mais jeito correr ou tiver menor custo, andamos a fazer uns testes com local GPUs para cenas OT e está a correr muito bem com pouco investimento
Técnico Meo says:

16 de Setembro de 2025 às 09:20

Hugo Nabais, és um homem de sorte por conseguires rodar o full model. Ainda estou á espera do suporte para llamacpp, para as GGUFs, que pelos vistos vai demorar semanas ou meses, devido á arquitectura ser algo radicalmente novo. Testaste também o modelo Qwen3 Next 80B VERSÃO ThinK ? Pelo Openrouter consigo os melhores resultados. Até para rodar no portátil o modelo anterior Qwen3-30B-A3B-Thinking-2507, já por si é acima da média, na minha opinião superior ao gpt-4o de março deste ano.

Responder
- Hugo Nabais says:
  
  16 de Setembro de 2025 às 17:51
  
  A versão Think não testei, mas testei o Qwen3-30B-A3B-Instruct-2507 (quantized) e gostei muito dos resultados dos testes! Eu diria que é quase tão bom como o Qwen3 Next 80B A3B! Ligeiramente abaixo mas por muito pouco, nos testes que fiz.
  E tendo em conta que é muito mais leve eu diria que é uma boa aposta agora. Se tiveres oportunidade experimenta.
  Tenho pena de não ser “pensante” por um lado, por outro é mais direto nas respostas. Mas tenho que ver se testo a versão Think.
  
  Responder
  - Hugo Nabais says:
    
    16 de Setembro de 2025 às 18:08
    
    Agora é que li melhor o teu post, e sim o Qwen3-30B-A3B-Thinking-2507 é excelente, já vi que já testaste, equivalente ao 4o sem dúvida!
    Já agora que versão quantizada usaste?
    
    Responder
    - Técnico Meo says:
      
      16 de Setembro de 2025 às 20:40
      
      unsloth Q6_K-xl UD . Segundo testes, equivale a um f16. Aqui: https://www.reddit.com/r/unsloth/comments/1n1jq1l/q5_k_xl_and_q6_k_xl_on_5shot_mmlu_graph/
      
      Responder
Manuel da Rocha says:

16 de Setembro de 2025 às 12:05

Atenção é que, nestes chineses, 99,9999999999999999999999% dos valores investidos, nunca são referidos. Basta notar, que o governo chinês, colocou 6300000 milhões de dólares, nas empresas tecnológicas, em 2024. Esses valores, foram usados, sem que surjam em qualquer despesa, das empresas.

Responder

Deixe um comentário Cancelar Resposta

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.