Chinesa DeepSeek estará a “enganar” o mercado IA
A IA chinesa DeepSeek abalou o mundo da IA porque, em teoria, era um LLM muito avançado que teria custado apenas 6 milhões de dólares no total. Os números apresentados davam uma "chapada de luva branca" à tecnologia da americana OpenAI. Contudo, o Bom, Bonito e Barato... afinal poderá ser mentira!
DeepSeek é muito mais cara do que o anunciado
Sim, o cenário parece ser extraordinário, aliás, segundo os números apresentados, talvez até demasiado bom para ser verdade. Os dados de um estudo partilhado pela SemiAnalysis confirmam que tudo não passou de uma ilusão em que muitos quiseram acreditar.
O estudo baseia-se num ponto crucial: o custo do hardware necessário para treinar o DeepSeek. Para este treino, foram usadas GPUs da NVIDIA, mais precisamente modelos H800 e H100, cujo custo total ronda os 1.600 milhões de dólares. A isto, soma-se o custo operacional de manter e utilizar essas GPUs, estimado em cerca de 944 milhões de dólares.
No total, para treinar o DeepSeek, terão sido utilizadas cerca de 60.000 GPUs da NVIDIA, resultando num custo acumulado de aproximadamente 2.573 milhões de dólares, segundo a SemiAnalysis. Além disso, há outro fator importante a considerar: o custo dos dados necessários para alimentar um modelo desta dimensão.
De acordo com as informações mais recentes, os responsáveis por esta IA podem ter roubado dados da OpenAI e treinado o DeepSeek com uma técnica conhecida como destilação de resultados. Este método viola as políticas de uso da API da OpenAI, mas permite reduzir significativamente os custos de treino de uma IA.
Os tais 6 milhões de dólares referem-se apenas ao custo em GPUs na fase de pré-treino, o que representa uma pequena fração do custo total do modelo. Este valor ignora despesas fundamentais como os investimentos em I&D e o custo total de propriedade do hardware.
Em resumo, o valor divulgado não reflete o custo real. Além disso, o facto de o DeepSeek ter conseguido acesso a um número tão elevado de GPUs para treinar a sua IA levanta questões sobre a eficácia das restrições de exportação deste tipo de hardware para a China, um tema que já está a ser investigado.
IA chinesa será assim tão impressionante?
Tecnicamente, representa um avanço importante na inteligência artificial, mas isso depende da comparação. Em termos de custo por milhão de tokens, oferece um bom valor face a certos modelos, como o GPT-4o-0513, mas fica atrás do GPT-4o-mini e do Llama 3.2 70B.
Resta ver como este tema vai evoluir e qual será o desfecho da polémica gerada em torno deste modelo. No entanto, uma coisa é certa: a chegada do DeepSeek deverá intensificar a concorrência entre modelos de IA avançada, algo que poderá ter um impacto positivo no setor.
Foi dado autorização ao mais alto nível na América para operações de narrativa…
O que sabemos é que a comunidade adorou o opensource e já existe um monte de projectos baseados nas LLM deepseek algo que não se poderia fazer com OpenAI que de Open só tem nome…
Até a Microsoft vai adoptar o mesmo para incorporar nos equipamentos com copilot+.
+1
Ou seja, qualquer um pode fazer um LLM, isso é bom ou mau? Não me parece bom, estamos a manusear uma força equiparada ao nuclear. Para começar é bom saber quem, depois onde e o quê (finalidade).
Na Mouch
sabem cuantas NVIDIA 4080 havia na china a minar cryptos?
as mesmas que ha uns meses estavao a vende-las a peso?
será que usaram esses chips?
e 100 nvidia 4080 fazem o mesmo que uma h800? (nao sei qual a relaçao)
“treinado o DeepSeek com uma técnica conhecida como destilação de resultados. Este método viola as políticas de uso da API da OpenAI” – isto é caso para dizer: “Ladrão que rouba ladrão tem cem anos de perdão.”
A controvérsia em torno da DeepSeek e das alegações de que ela seria um “plágio” do ChatGPT é um tema complexo, mas eu não concordo com essa ideia. Vamos analisar esse cenário com base em alguns pontos importantes:
Semelhança não significa cópia
O fato de o DeepSeek utilizar métodos ou técnicas similares para treinar o seu modelo de linguagem não implica, automaticamente, que ele copiou o algoritmo do ChatGPT. Comparar o DeepSeek ao ChatGPT é como comparar a fórmula secreta da Coca-Cola com outras bebidas de sabor similar: pode haver semelhanças no produto ou no processo, mas a fórmula exata permanece protegida. O algoritmo do ChatGPT nunca foi divulgado publicamente, o que torna impossível replicá-lo de forma idêntica.
As empresas que confiaram no DeepSeek
Outro ponto crucial é que empresas de grande relevância tecnológica, como Nvidia, Microsoft e Meta, integraram o DeepSeek aos seus serviços. Se a tecnologia fosse, de fato, tão “ruim” ou baseada apenas em cópia, seria difícil imaginar que empresas tão importantes, com acesso a recursos e especialistas, apostariam na DeepSeek. Essas organizações não tomam decisões estratégicas sem análises detalhadas, o que reforça a legitimidade do modelo.
A controvérsia da destilação de resultados
Embora existam acusações de que a DeepSeek utilizou a técnica de destilação de resultados para treinar seu modelo, é importante lembrar que essa abordagem, apesar de polêmica, não significa necessariamente “roubo” de tecnologia. Ela pode ser uma forma de aprendizado baseada nos outputs de outro modelo, mas isso não equivale a replicar o código ou o algoritmo subjacente.
Impacto no setor e a intensificação da concorrência
A chegada do DeepSeek está ajudando a intensificar a concorrência no setor de inteligência artificial, o que é extremamente positivo para o avanço da tecnologia. Modelos como o ChatGPT, Llama 3.2 e o próprio DeepSeek estão se desafiando mutuamente, o que beneficia os consumidores e acelera o desenvolvimento de soluções mais acessíveis e eficientes.
Conclusão
Não acredito que seja “fácil” copiar a tecnologia do ChatGPT, pois os algoritmos e as arquiteturas por trás desses modelos são altamente protegidos e complexos. A comparação entre DeepSeek e ChatGPT deve ser baseada em resultados e inovação, e não em teorias de plágio. Afinal, a verdadeira concorrência no setor de IA está na capacidade de cada empresa oferecer soluções únicas e eficazes – e não em acusações infundadas.
As críticas e rumores podem ser inevitáveis, mas o tempo dirá se a DeepSeek realmente merece ser vista como um competidor à altura. Até lá, é importante avaliar as tecnologias com base em fatos e resultados, e não apenas em suposições.
“O fato de o DeepSeek utilizar métodos …”, deveria ter escrito “O facto de o DeepSeek utilizar métodos …”.
Em português de Portugal o “c” quando é pronunciado, não desaparece.
Em Portugal fato, é de vestir, no Brasil diz-se “terno”.
Como por exemplo “contacto” e não “contato” que é como se diz no Brasil.
Também deve dizer “pacto” e não “pato”.
Eu sei que o acordo ortográfico só veio complicar em muitas coisas, mas nestes casos é muito explícito – pronuncia-se, logo escreve-se.
Ainda não passou um mês e já chegaram à conclusão que afinal o investimento é muito superior ao divulgado, que usaram milhares de GPU’s e gastaram milhões de dolares.
Também não incluíram todas as despesas nas suas análises.
Também não incluíram os custos dos dados que afinal foram roubados da OpenAI.
Mas afinal em que ficamos… se foram roubados não tiveram custos ou se tiveram custos não foram roubados… ou um ou outro!!!
Mais uns dias e vão chegar à conclusão que utilizaram mais GPU’s do que aquelas que foram fabricadas.
Conclusão: A DeepSeek o que precisa é de um contabilista.
Curiosidade. No site da SemiAnalisys não refere o país origem nem onde são os escritórios centrais ou sede. Pesquisem por: de que país é a semianalisys
Mas se pesquisarem por: Andrew Lekashman in linkedin– SemiAnalysis já aparece Lekas (Andrew Lekashman – SemiAnalysis) trabalha em Los Gatos, California, United States · SemiAnalysis Andrew Lekashman. SemiAnalysis San Diego State University-California State University. Los Gatos, California, United States.
Portanto temos de falar com o Lekas
Com tantos Chineses espalhados pelo mundo fora, certamente não deve ser muito complicado comprar o material nesses países e enviar para a China, ou o países aliados da China ajudarem também, todos sabemos onde há dinheiro há corrupção e a corrupção não conhece fronteiras.
PAra alguém “novo” nestas andanças da IA – a tecnica de destilação de resultados para treinar o deepsleek, não é “propagar o erro”?
O ChatGPT não é nada mau mas comete erros (alguns complicados) e treinar uma IA com base no output de outro modelo não é aumentar o erro na “segunda iteração”? Ou seja, no final o modelo pode até ser tecnicamente poderoso mas a nivel de resultados poderá ter menos qualidade – como se diz em analise de dados “Garbage in –> garbage out” e aqui duplicamos o primeiro.
no inicio do anuncio disse-o e continuo a dizer. Deixem a poeira acentar e depois podemos tirar as reais conclusões.
Os chinos sempre nos habituaram a fazer copia bem feitas por menos cvstos, so compra e utiliza quem quer, eu ca de IA ja sou velho demasiado para utilizar essas porcariasm mas ainda vai dar muito que falar.
Mas quem é que acreditou em tal proeza? XD
Claro que foi para manipular o mercado financeiro.
As baleias compraram ações da Nvidia 20% mais baratas.
Os chineses têm pessoas infiltradas por tudo quanto é lugar, como têm os israelitas na cisjordania, era so questao de dias, eles imitam bem mas certos produtos deixam muito a desjar em termos de qualidade, na minha perspectiva.