PplWare Mobile

4 mitos sobre correr modelos de IA localmente

                                    
                                

Autor: Rui Neto


  1. Zé Fonseca A. says:

    Se querem correr modelos locais nos vossos pcs vão para modelos pequenos como qwen.
    Se tiverem GPUs com 256 ou 512 de vram mandem-se para modelos maiores, vejam comparação de performance entre esses modelos e modelos comerciais para escolherem o que melhor se aplica ao vosso use case. Podem ter agentes a correr modelos independentes, não precisa de ser one fits all.
    Podem até correr dentro dos vossos IDEs.
    Mas o mais importante a ter em consideração é o contexto desses modelos que é muito inferior aos modelos comerciais de topo, precisam de saber gerir isso com agentes por tarefa e orquestração entre agentes para cada um ter o seu contexto.

    • Learner says:

      Por acaso tem conhecimento de alguma AI que eu possa usar enquanto assisto a aulas? Que abra no browser a informação pertinente de apoio, que estiver a ser abordada no momento (em tempo real) em que os temas estão a ser abordados e que no final faça o resumo (como aquelas que o fazem no final das reuniões), mas de preferência “gratuitas”?
      Thanks in advance

      • Zé Fonseca A. says:

        Não é permitido gravar aulas, tens montes de soluções para isso

      • Mr Grieves says:

        Não são propriamente modelos, nem sequer locais, mas o Fireflies tem uma quota gratuita (talvez o Fellow note taker tambem tenha). Esta plataformar têm servodor MCP que permite aceder com um LLM e até centralizar os resumos noutra prataforma de notas (notion, obsidian, etc)

      • Learner says:

        Obrigado a ambos, vou investigar.
        Quanto ao assunto legal, não pretendo divulgar.
        Pretendo apenas que a aplicação consiga escrever o que de principal está a ser dito, para não perder fracções daquilo que está a ser dito, pois a info é debitada a alta velocidade.
        E que no fim, consiga fazer um resumo.
        Porque tenho gravado as aulas para depois passar a escrito e estudar através do audio, mas não está a ser produtivo porque estou a levar demasiado tempo a escrever…
        No fim apago o audio. Tenho usado para ouvir e escrever e depois apagar.
        As notas ficam boas, mas absorvem quase a totalidade dos meu dias.
        Por isso vos fiz a pergunta, porque sem a AI não vou conseguir fazer o meu tempo render até ao final do semestre…
        Só estou a conseguir fazer os trabalhos ao FDS, mais o meu trabalho diário, etc, etc… O meu tempo voa…
        Muito obrigado pelas dicas

        • Zé Fonseca A. says:

          mesmo com esse proposito, sem autorização do prof é ilegal, anyway, tens gravadores com AI embutida que depois te passam o transcript para o pc, mais eficaz e mais util

  2. Artilheiro says:

    PC’s que tenham abaixo de 32Gb de RAM DDR5, não é recomendável, se não tiverem uma gráfica dedicada com CUDA e com pelo menos 8Gb de VRAM.
    O ideal será um PC com uma gráfica dedicada com CUDA e com pelo menos 16Gb de VRAM. Ou então um Mac Mini, ou um Mac Studio, com pelo menos 32Gb de RAM.

    • Zé Fonseca A. says:

      Qwen

    • Corrector says:

      Se a llm for para rodar na gpu para que precisas de 32 de ram? Se a llm for para rodar no cpu para que precisas de vram?

      • Técnico Meo says:

        Eu respondo- 1 caso :gpu apertada, ofload para a ram do context , ou de partes para a inferencia senão couber tudo na gpu. Se for só pouco de offload, não perdes muito tokens por segundo.

        • Corrector says:

          Perdes e muito. Tens gpu? Sabes do que estás a falar?
          Se sim pesquisa sobre ” ollama show –modelfile , vai mudar a tua vida. Desde que conheço as ia para rodar localmente a ideia é sobre fluidez e especilização, entao mais vale especializares várias pequenas do que teres uma gigante que não se mexe. Troca o lmstudio por ollama e já agora o openclaw pelo hermes, estamos em maio..

          • Técnico Meo says:

            Não uso ollama nem que tivesse banhado a ouro. Tenho amd em casa, só problemas de implementação com o rocm E o offload, eu disse um bocadinho, só um chiriquito… Quando ao openclaw, já testei, não gostei, muito bugado. Mas isto é como tudo na vida: uns são do Sporting, outros de clubes 3 liga :). Olha que eu não trabalho em IT pá, sou muito curioso mas o ganha pão vem doutro lado nada a ver.

          • Zé Fonseca A. says:

            Lol.. estamos em maio.. essa é a verdade da AI, todos os meses a mudar, por este andar este ano não tenho férias a tentar acompanhar os avanços.
            Por aqui já vou com um stack interessante, Claude code com opus e fallback para codex e code review, Claude code com ollama e os dois qwen para tarefas básicas locais, Claude code + paperclip + Hermes com deepseek para tudo o que são tarefas pessoais e smart home, e depois Claude code + obsidian + pinecone, tudo a correr dentro de kubernetes na empresa com vários agentes para automatizar tarefas das minhas equipas e termos agentes com memória quase persistente.
            Tirando isso é business as usual

          • Zé Fonseca A. says:

            Esqueci-me no n8n que ainda mantemos

          • Learner says:

            Já alguém conseguiu pôr o Visual Studio 2022 a bulir num tablet android?
            Ou só o VS Code no Ubuntu ou o Debian, executados através do ambiente PRoot dentro do Termux ?

        • Corrector says:

          Tive que responder acima. Aí tens um ponto muito forte, deixei de usar amd faz anos, não conheço essa experiência. Bom, se algum dia te animares ppr ia local procura por material de servidor, processamento xeon e grafica nvidia tesla p100(16gb) com 500 eur já ficas forte e com a promessa da chegada do turboquant ao mercado, a esperança é menos 6-8x de vram necessária. O openclaw não achei piada porque na fazia nada que eu já não usasse no n8n faz anos. Mas experimenta o hermes ele evolui, pesquisa hermes desktop office no youtube. É para “brincar” mas corres o risco de ter uma ideia e pô-la a funcionar com uma “empresa virtual em ai” enquanto dormes, e sim tem suporte direto com lmstudio. Mas usa modelos mais pequenos xD gemma:e4b é bom qwen3.5:9b também é bom se forem abliterated é melhor porquem pensam fora da caixinha.

          • Técnico Meo says:

            “”” abliterated é melhor porque pensam fora da caixinha “”” hihihihi , um script malicioso talvez ? 🙂 Bom dia. Vou retestar o openclaw, quando testei foi há 2 meses. O Fonseca falou ai do paperclip , tenho de ir espreitar o que faz.

          • Zé Fonseca A. says:

            openclaw morreu, agora a trend é hermes

  3. Técnico Meo says:

    Llama 3.1 ? He pá, malta da PPware, actualizem-se heheeheh- Com laptop da maria tem 32 Gigas soldadas ou normais, ryzen 370 hx, ou ryzen 7940hs, a correr com a IGPU em linux, lm studio, opensource qwen3.6 36B Q4 k xl unsloth com 80K de contexto qv q8. No opencode ou openclaw a fazer produtividade office, mandar email, etc. Corre com 23 a 25 tokens por segundo. Bastante utilizável e inteligente. Coding de coisas mais simples ou projectos pequenos, qwen 3.6 27B Q4 xl, 6 tokens por segundo, lento mas utilizável (deixar trabalhar e ir comer) . Preços destes portáteis na casa dos 900 a 1500 euros. Se o mercado tivesse normal custariam nunca mais de 900 euros cada um. Nova merge no llama cpp hoje, com MQT a dar mais 30% de velocidade nos modelos todos. Novos modelos daqui a 6 meses serão 15% mais rápidos e 20% mais inteligentes. Como diz aqui o artilheiro, para coding profissional, qwen3.6 27B com rtx de 16 a 32 Gigas vram, 50 a 60 tokens por segundo, Q6 k XL. Para quem tem maquina de jogos é aventurar. O futuro em casa, a correr offline. Não há pc de jeito? Não faz mal, Opencode cli, ou PI, ou outros tantos, API do openrouter, deepseek 4 flash, uma noite inteira num projecto intermedio não comercial, 60 céntimos, milhões de tokens (esta é boa pro Aves, aquilo o pc é só devorar tokens ao preço da uva mijona). Não querem gráficas de 4000 euros cuda? Ryzen 395 + , 96 GB ddr5. Qwen3.6 27B a 22 tokens por segundo ( 26 com MQT) a Q4. Qwen 3.6 36B, Q8, a 45 tokens por segundo. Windows complicado? Linux., que é gratuito e opensource.

  4. Corrector says:

    O meu samsung s ultra a rodar ollama com lfm2.5-thinking localmente manda cumprimentos, responde a mensagens em várias línguas e chama ferramentas, tudo no one ui stock.

    Programa mais acessível para windows, mac e android = ollama.
    Programa acessível para win, mac e linux com agentes, memória , acesso à internet, produçao de documentos , apresentacoes, codigo, envio de emails , gestão de calendário e RAG = Anythingllm.
    Programa mais acessível para instalar programas de geracao de video, voz, imagens localmente para gpu nvidia ou mac = pinokio
    E nada disto é novidade.

  5. +1 says:

    Fui comprar 64Gb ram e no final uso o codex e claude…

  6. Técnico Meo says:

    Qwen 3.7 no horizonte. Pode haver surpresas boas

Deixe um comentário

O seu endereço de email não será publicado.

You may use these HTML tags and attributes: <a href="" title="" rel=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.