PplWare Mobile

OpenAI gastou US$ 78 milhões para fazer o mesmo que a Alibaba fez por US$ 500 mil

                                    
                                

Autor: Rui Neto


  1. Hugo Nabais says:

    Tenho testado este modelo Qwen3 Next 80B localmente e tal como outros MoE a experiencia nem sempre é a melhor. Dá ideia que por vezes a escolha do “expert” acerta ao lado. No entanto é muito rápido como seria de esperar com esta técnica.

    • Zé Fonseca A. says:

      Mas porque raio andas a testar llms localmente? Podes fazê-lo por meia dúzia de euros em qualquer public cloud

      • Hugo Nabais says:

        Tenho acesso a servidores com 512gb ram num data center que giro. Basicamente posso, tenho recursos testei… É isso

        • Zé Fonseca A. says:

          que importa RAM e CPU, corres isso em 1/100 do tempo com determinados GPUs em cloud publica

          • Técnico Meo says:

            Pra ter offline em casa. Mas como fazes, dá ai uma dica ao pessoal. É através de API? Como fazes o loading do modelo? Parece interessante

          • Hugo Nabais says:

            Neste caso como não há “quantization” usei um servidor com 96 cores/512GB RAM, e tenho ideia que consegui 10 tokens/s +/-. Para os meus testes chegou e sobrou. Praticamente só fiz questões de lógica, raciocino, matemática, programação, numa ótica de comparação com outros modelos. E fui fazendo literalmente em paralelo com o meu trabalho. Enviava as prompts e passado algum tempo ia ver os resultados. Não foi rápido, também não foi lento.
            Deixa-me que te diga que com GPUs não conseguia 100 vezes mais velocidade, mas acredito que umas 20 vezes mais rápido seria sem dúvida.
            Se eu quiser algo mais a sério ou complexo, tenho outros meios com GPU, mas que de momento estavam “ocupados” e/ou os que havia não tinham VRAM para este modelo não “quantizado”.
            Como disse para os meus testes rápidos chegou e sobrou e não tive necessidade de utilizar nada mais rápido.

            Tendo acesso aos recursos que tenho, não me faz sentido subscrever clouds. Mas se precisar de “processar” algo complexo e /ou tiver pressa claro que nessa altura é uma opção.

            Eu no dia a dia nunca iria utilizar um modelo assim não “quantizado” fp16. É estupidamente demasiado pesado em termos de recursos, para pouco retorno.
            No dia a dia para coisas a sério uso máquinas com GPU e quantização Q8 ou Q6_K dependendo do modelo LLM e lá está, não preciso de subscrever nada e tenho respostas na casa dos 50 a 100 tokens/s. Que é mais do que suficiente para mim.

            De qualquer forma obrigado pela preocupação, claro.

          • Técnico Meo says:

            Boa. Em casa, modelos que consiga correr F16 só mesmo os pequenos. Os outros, alguns com offloading e de preferência unsloth Q6K-xl UD ou até eventualmente Q5 do mesmo. Ou bartowski. Agora o que o Fonseca estava a dizer também parece interessante, alugar uma gpu online. Só não estou a ver como se faz todo o processo

          • Zé Fonseca A. says:

            A forma mais fácil e usares Cloud Run, quase não precisas de saber código, há aí uns cursos de meia dúzia de horas para te ajudarem a correres modelos desses em menos de 1-2h, temos aqui uns miúdos a brincar nuns labs com isso e a dar grande show com ideias muito boas e muito pouco esforço.
            Se for uma coisa mais a sério sugiro GKE, é o que estamos a fazer aqui, temos tudo em cima de kubernetes, facilmente pegamos e mandamos isso para outro cloud provider ou para on prem, onde der mais jeito correr ou tiver menor custo, andamos a fazer uns testes com local GPUs para cenas OT e está a correr muito bem com pouco investimento

  2. Técnico Meo says:

    Hugo Nabais, és um homem de sorte por conseguires rodar o full model. Ainda estou á espera do suporte para llamacpp, para as GGUFs, que pelos vistos vai demorar semanas ou meses, devido á arquitectura ser algo radicalmente novo. Testaste também o modelo Qwen3 Next 80B VERSÃO ThinK ? Pelo Openrouter consigo os melhores resultados. Até para rodar no portátil o modelo anterior Qwen3-30B-A3B-Thinking-2507, já por si é acima da média, na minha opinião superior ao gpt-4o de março deste ano.

  3. Manuel da Rocha says:

    Atenção é que, nestes chineses, 99,9999999999999999999999% dos valores investidos, nunca são referidos. Basta notar, que o governo chinês, colocou 6300000 milhões de dólares, nas empresas tecnológicas, em 2024. Esses valores, foram usados, sem que surjam em qualquer despesa, das empresas.

Deixe um comentário

O seu endereço de email não será publicado.

You may use these HTML tags and attributes: <a href="" title="" rel=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.