EXO Labs consegue correr modelo de IA no Windows 98 com Pentium II e 128 MB de RAM

Rui Neto

1 semana ago

A EXO Labs, um grupo de investigadores e engenheiros de Oxford, realizou recentemente uma demonstração impressionante. Conseguiram correr um Large Language Model (LLM) chamado Llama 2 num computador equipado com um processador Pentium II a 350 MHz, apenas 128 MB de RAM e a funcionar sob o sistema operativo Windows 98.

EXO Labs coloca o LLM Llama 2 a funcionar num PC com 26 anos

Este feito, documentado num post detalhado no blog da EXO Labs e num breve vídeo partilhado no X, demonstra as possibilidades surpreendentes da IA quando adaptada a recursos extremamente limitados.

O vídeo divulgado mostra o arranque de um antigo computador Elonex com Windows 98. Uma vez no sistema operativo, a equipa da EXO executa o seu motor de inferência desenvolvido em C, baseado no projeto open-source llama2.c de Andrej Karpathy. O LLM foi solicitado a criar uma história e, de forma notável, conseguiu gerá-la a um ritmo bastante respeitável.

LLM running on Windows 98 PC

26 year old hardware with Intel Pentium II CPU and 128MB RAM.

Uses llama98.c, our custom pure C inference engine based on @karpathy llama2.c

Code and DIY guide 👇 pic.twitter.com/pktC8hhvva

— EXO Labs (@exolabs) December 28, 2024

EXO Labs não quer impressionar apenas com demonstrações técnicas

Criada para “democratizar o acesso à IA”, a organização procura quebrar a dependência de grandes empresas que monopolizam as infraestruturas de IA. Segundo os fundadores, este monopólio representa um risco para a cultura, a verdade e outros valores fundamentais da sociedade.

O objetivo da EXO é capacitar qualquer pessoa a treinar e executar modelos de IA em dispositivos quotidianos, por mais antigos que sejam, como demonstrado com esta experiência no Windows 98.

Para levar a cabo este projeto, a EXO enfrentou vários desafios. Encontrar um PC com Windows 98 não foi difícil – plataformas como o eBay fornecem várias opções. Contudo, transferir dados para o computador foi uma tarefa mais complicada. A solução encontrada foi o uso do antigo protocolo FTP através de uma porta Ethernet.

Outro grande desafio foi compilar código moderno para o Windows 98. A equipa aproveitou a simplicidade do llama2.c, um motor de inferência com apenas 700 linhas de código em C, que suporta modelos baseados na arquitetura Llama 2. Utilizando o compilador Borland C++ 5.02, com algumas modificações, conseguiram criar um executável compatível com o sistema operativo de 1998.

A execução do LLM foi impressionante: com um modelo de 260 mil parâmetros, o desempenho atingiu 35,9 tokens por segundo – um resultado incrível para um PC de 350 MHz com um único núcleo.

Quando tentaram escalar para um modelo maior, com 15 milhões de parâmetros, a velocidade reduziu-se para cerca de 1 token por segundo. Já um modelo de 1 bilião de parâmetros foi executado a uns lentíssimos 0,0093 tokens por segundo.

35.9 tok/sec on Windows 98 🤯

This is a 260K LLM with Llama-architecture.

We also tried out larger models. Results in the blog post. https://t.co/QsViEQLqS9 pic.twitter.com/lRpIjERtSr

— Alex Cheema – e/acc (@alexocheema) December 28, 2024

Arquitetura BitNet é o futuro

O projeto do Windows 98 é apenas uma peça num quebra-cabeças maior da EXO Labs. A organização está a trabalhar numa arquitetura chamada BitNet, que promete democratizar ainda mais a IA. Segundo o blog da EXO, a BitNet permite a um modelo com 7 mil milhões de parâmetros ocupar apenas 1,38 GB de armazenamento – uma dimensão mínima para padrões modernos.

Além disso, a BitNet foi projetada para ser CPU-first, eliminando a dependência de GPUs caras. Este tipo de modelo é também 50% mais eficiente que os modelos de precisão total, sendo capaz de executar um modelo com 100 mil milhões de parâmetros a uma velocidade de leitura humana (5 a 7 tokens por segundo) num único CPU.

A EXO Labs convida todos os interessados a juntar-se à sua missão. Além de procurarem colaborações técnicas, promovem também um canal de Discord chamado “Retro”. Aqui, os entusiastas discutem soluções para executar modelos de IA em hardware antigo, desde Macs clássicos e Gameboys até dispositivos como Raspberry Pi.

Leia também:

Aitana foi criada por inteligência artificial e já ganha 10 mil euros por mês