4 mitos sobre correr modelos de IA localmente
Os modelos de inteligência artificial (IA) locais continuam a ser vistos como ferramentas complexas, reservadas apenas para programadores e especialistas em hardware. No entanto, a evolução das aplicações e da tecnologia tornou a IA local muito mais acessível do que muitos imaginam.
1️⃣ Executar modelos de IA localmente é apenas para especialistas
Existe a ideia de que apenas programadores experientes conseguem utilizar modelos de IA localmente. Durante algum tempo isso até foi verdade, sobretudo quando praticamente tudo exigia conhecimento de Linux, Python e linhas de comando.
Hoje em dia, o cenário é completamente diferente. Aplicações modernas simplificaram o processo ao ponto de qualquer utilizador conseguir começar em poucos minutos. Ferramentas como GPT4All permitem instalar modelos de IA através de interfaces gráficas simples, sem necessidade de escrever comandos complicados.
Basta descarregar a aplicação, escolher um modelo disponível na biblioteca e iniciar imediatamente uma conversa com a IA.
Outro exemplo popular é LM Studio, que inclui um explorador de modelos integrado e uma interface de chat muito intuitiva. Para a maioria das pessoas, a dificuldade já não está na instalação, mas sim no receio inicial de experimentar algo que continua a parecer demasiado técnico.
2️⃣ O armazenamento é o maior problema
Um dos mitos mais comuns é a ideia de que os modelos de IA ocupam centenas de gigabytes e exigem discos gigantescos. Embora isso pudesse ser verdade há alguns anos, a evolução das técnicas de compressão mudou completamente o panorama.
Graças à quantização, muitos modelos modernos conseguem funcionar com tamanhos bastante reduzidos. Um modelo como Llama 3.1 na versão 8B pode ocupar menos de 5 GB de armazenamento, o que o torna mais leve do que muitos jogos atuais.
Mesmo modelos muito maiores, com dezenas de milhares de milhões de parâmetros, conseguem funcionar ocupando cerca de 40 a 50 GB. Naturalmente, um SSD rápido ajuda a reduzir os tempos de carregamento, mas o verdadeiro fator importante acaba por ser outro.
Quando o modelo já está em execução, a velocidade da memória passa a ter mais impacto do que o espaço livre em disco. Em ambientes locais, a quantidade de VRAM disponível determina se o modelo consegue arrancar, enquanto a largura de banda da memória influencia diretamente a rapidez das respostas.
Por outras palavras, não é necessário ter vários terabytes disponíveis para começar a explorar IA local em casa.
3️⃣ Os modelos locais estão muito longe de ser úteis
Muitas pessoas assumem automaticamente que um modelo executado num portátil comum será lento, limitado ou pouco inteligente. É verdade que um pequeno modelo local não consegue competir diretamente com os sistemas mais avançados alojados na cloud, que utilizam centenas de milhares de milhões de parâmetros. No entanto, para a maioria das tarefas do dia a dia, isso raramente é um problema.
Se o objetivo for criar projetos pessoais, gerar ideias, resumir documentos, escrever textos ou até ajudar em programação, os modelos locais atuais já oferecem resultados bastante impressionantes. Em muitos casos, a velocidade de resposta é surpreendente.
Modelos compactos como o Llama 3.1 8B conseguem gerar texto a velocidades superiores à capacidade média de leitura humana. Dependendo do hardware utilizado, é perfeitamente possível atingir mais de 90 tokens por segundo.
Claro que ferramentas profissionais na cloud continuam a ser superiores para tarefas extremamente complexas ou raciocínio avançado. Ainda assim, isso não significa que os modelos locais sejam fracos. Para utilização pessoal e produtividade diária, conseguem responder muito bem.
4️⃣ É preciso um computador de 2 mil euros
Outro erro frequente passa pela ideia de que executar IA local exige uma workstation topo de gama cheia de placas gráficas caríssimas. Na realidade, os avanços na quantização permitiram reduzir drasticamente os requisitos de hardware. Com modelos em 4-bit, é possível diminuir o consumo de memória em cerca de 75% sem perdas significativas de qualidade.
Isso significa que modelos com 7 ou 8 mil milhões de parâmetros conseguem funcionar utilizando apenas 4 a 8 GB de memória. Em muitos casos, um computador doméstico relativamente normal já é suficiente para começar.
Aplicações como GPT4All conseguem correr em máquinas mais antigas sem necessidade de uma placa gráfica dedicada. Para tarefas básicas de conversação e produtividade, o desempenho é mais do que aceitável. Existem até modelos leves capazes de correr em dispositivos tão modestos como um Raspberry Pi.
Ao mesmo tempo, computadores recentes com Apple Silicon tornaram-se excelentes plataformas para IA local graças à arquitetura de memória unificada. Isso permite que portáteis relativamente compactos consigam executar modelos que anteriormente exigiriam hardware muito mais caro.
Leia também:






















Se querem correr modelos locais nos vossos pcs vão para modelos pequenos como qwen.
Se tiverem GPUs com 256 ou 512 de vram mandem-se para modelos maiores, vejam comparação de performance entre esses modelos e modelos comerciais para escolherem o que melhor se aplica ao vosso use case. Podem ter agentes a correr modelos independentes, não precisa de ser one fits all.
Podem até correr dentro dos vossos IDEs.
Mas o mais importante a ter em consideração é o contexto desses modelos que é muito inferior aos modelos comerciais de topo, precisam de saber gerir isso com agentes por tarefa e orquestração entre agentes para cada um ter o seu contexto.
Por acaso tem conhecimento de alguma AI que eu possa usar enquanto assisto a aulas? Que abra no browser a informação pertinente de apoio, que estiver a ser abordada no momento (em tempo real) em que os temas estão a ser abordados e que no final faça o resumo (como aquelas que o fazem no final das reuniões), mas de preferência “gratuitas”?
Thanks in advance
Não é permitido gravar aulas, tens montes de soluções para isso
+1
Não são propriamente modelos, nem sequer locais, mas o Fireflies tem uma quota gratuita (talvez o Fellow note taker tambem tenha). Esta plataformar têm servodor MCP que permite aceder com um LLM e até centralizar os resumos noutra prataforma de notas (notion, obsidian, etc)
Openrouter, enjoy
Obrigado a ambos, vou investigar.
Quanto ao assunto legal, não pretendo divulgar.
Pretendo apenas que a aplicação consiga escrever o que de principal está a ser dito, para não perder fracções daquilo que está a ser dito, pois a info é debitada a alta velocidade.
E que no fim, consiga fazer um resumo.
Porque tenho gravado as aulas para depois passar a escrito e estudar através do audio, mas não está a ser produtivo porque estou a levar demasiado tempo a escrever…
No fim apago o audio. Tenho usado para ouvir e escrever e depois apagar.
As notas ficam boas, mas absorvem quase a totalidade dos meu dias.
Por isso vos fiz a pergunta, porque sem a AI não vou conseguir fazer o meu tempo render até ao final do semestre…
Só estou a conseguir fazer os trabalhos ao FDS, mais o meu trabalho diário, etc, etc… O meu tempo voa…
Muito obrigado pelas dicas
mesmo com esse proposito, sem autorização do prof é ilegal, anyway, tens gravadores com AI embutida que depois te passam o transcript para o pc, mais eficaz e mais util
PC’s que tenham abaixo de 32Gb de RAM DDR5, não é recomendável, se não tiverem uma gráfica dedicada com CUDA e com pelo menos 8Gb de VRAM.
O ideal será um PC com uma gráfica dedicada com CUDA e com pelo menos 16Gb de VRAM. Ou então um Mac Mini, ou um Mac Studio, com pelo menos 32Gb de RAM.
Qwen
Qwen? Se o Trump vê isto estás despedido.
Se a llm for para rodar na gpu para que precisas de 32 de ram? Se a llm for para rodar no cpu para que precisas de vram?
Eu respondo- 1 caso :gpu apertada, ofload para a ram do context , ou de partes para a inferencia senão couber tudo na gpu. Se for só pouco de offload, não perdes muito tokens por segundo.
Perdes e muito. Tens gpu? Sabes do que estás a falar?
Se sim pesquisa sobre ” ollama show –modelfile , vai mudar a tua vida. Desde que conheço as ia para rodar localmente a ideia é sobre fluidez e especilização, entao mais vale especializares várias pequenas do que teres uma gigante que não se mexe. Troca o lmstudio por ollama e já agora o openclaw pelo hermes, estamos em maio..
Não uso ollama nem que tivesse banhado a ouro. Tenho amd em casa, só problemas de implementação com o rocm E o offload, eu disse um bocadinho, só um chiriquito… Quando ao openclaw, já testei, não gostei, muito bugado. Mas isto é como tudo na vida: uns são do Sporting, outros de clubes 3 liga :). Olha que eu não trabalho em IT pá, sou muito curioso mas o ganha pão vem doutro lado nada a ver.
Lol.. estamos em maio.. essa é a verdade da AI, todos os meses a mudar, por este andar este ano não tenho férias a tentar acompanhar os avanços.
Por aqui já vou com um stack interessante, Claude code com opus e fallback para codex e code review, Claude code com ollama e os dois qwen para tarefas básicas locais, Claude code + paperclip + Hermes com deepseek para tudo o que são tarefas pessoais e smart home, e depois Claude code + obsidian + pinecone, tudo a correr dentro de kubernetes na empresa com vários agentes para automatizar tarefas das minhas equipas e termos agentes com memória quase persistente.
Tirando isso é business as usual
Esqueci-me no n8n que ainda mantemos
Já alguém conseguiu pôr o Visual Studio 2022 a bulir num tablet android?
Ou só o VS Code no Ubuntu ou o Debian, executados através do ambiente PRoot dentro do Termux ?
Tive que responder acima. Aí tens um ponto muito forte, deixei de usar amd faz anos, não conheço essa experiência. Bom, se algum dia te animares ppr ia local procura por material de servidor, processamento xeon e grafica nvidia tesla p100(16gb) com 500 eur já ficas forte e com a promessa da chegada do turboquant ao mercado, a esperança é menos 6-8x de vram necessária. O openclaw não achei piada porque na fazia nada que eu já não usasse no n8n faz anos. Mas experimenta o hermes ele evolui, pesquisa hermes desktop office no youtube. É para “brincar” mas corres o risco de ter uma ideia e pô-la a funcionar com uma “empresa virtual em ai” enquanto dormes, e sim tem suporte direto com lmstudio. Mas usa modelos mais pequenos xD gemma:e4b é bom qwen3.5:9b também é bom se forem abliterated é melhor porquem pensam fora da caixinha.
“”” abliterated é melhor porque pensam fora da caixinha “”” hihihihi , um script malicioso talvez ? 🙂 Bom dia. Vou retestar o openclaw, quando testei foi há 2 meses. O Fonseca falou ai do paperclip , tenho de ir espreitar o que faz.
openclaw morreu, agora a trend é hermes
Llama 3.1 ? He pá, malta da PPware, actualizem-se heheeheh- Com laptop da maria tem 32 Gigas soldadas ou normais, ryzen 370 hx, ou ryzen 7940hs, a correr com a IGPU em linux, lm studio, opensource qwen3.6 36B Q4 k xl unsloth com 80K de contexto qv q8. No opencode ou openclaw a fazer produtividade office, mandar email, etc. Corre com 23 a 25 tokens por segundo. Bastante utilizável e inteligente. Coding de coisas mais simples ou projectos pequenos, qwen 3.6 27B Q4 xl, 6 tokens por segundo, lento mas utilizável (deixar trabalhar e ir comer) . Preços destes portáteis na casa dos 900 a 1500 euros. Se o mercado tivesse normal custariam nunca mais de 900 euros cada um. Nova merge no llama cpp hoje, com MQT a dar mais 30% de velocidade nos modelos todos. Novos modelos daqui a 6 meses serão 15% mais rápidos e 20% mais inteligentes. Como diz aqui o artilheiro, para coding profissional, qwen3.6 27B com rtx de 16 a 32 Gigas vram, 50 a 60 tokens por segundo, Q6 k XL. Para quem tem maquina de jogos é aventurar. O futuro em casa, a correr offline. Não há pc de jeito? Não faz mal, Opencode cli, ou PI, ou outros tantos, API do openrouter, deepseek 4 flash, uma noite inteira num projecto intermedio não comercial, 60 céntimos, milhões de tokens (esta é boa pro Aves, aquilo o pc é só devorar tokens ao preço da uva mijona). Não querem gráficas de 4000 euros cuda? Ryzen 395 + , 96 GB ddr5. Qwen3.6 27B a 22 tokens por segundo ( 26 com MQT) a Q4. Qwen 3.6 36B, Q8, a 45 tokens por segundo. Windows complicado? Linux., que é gratuito e opensource.
O meu samsung s ultra a rodar ollama com lfm2.5-thinking localmente manda cumprimentos, responde a mensagens em várias línguas e chama ferramentas, tudo no one ui stock.
Programa mais acessível para windows, mac e android = ollama.
Programa acessível para win, mac e linux com agentes, memória , acesso à internet, produçao de documentos , apresentacoes, codigo, envio de emails , gestão de calendário e RAG = Anythingllm.
Programa mais acessível para instalar programas de geracao de video, voz, imagens localmente para gpu nvidia ou mac = pinokio
E nada disto é novidade.
Fui comprar 64Gb ram e no final uso o codex e claude…
Qwen 3.7 no horizonte. Pode haver surpresas boas