PplWare Mobile

Dica: 9 formas de melhorar as respostas do ChatGPT e qualquer outro chatbot

                                    
                                

Autor: Rui Neto


  1. Rui says:

    ChatGPT já foi ultrapassado. DeepSeek é open source. Com um investimento de 5 milhões, o projeto paralelo de uma startup chinesa derrotou toda a indústria tecnológica americana, provocou uma queda nas bolsas mundiais e chegou ao 1º lugar na App Store americana. A China venceu, é 95% mais barato! Todos os “líderes” da IA ganham mais do que 5 milhões, não existem mais razões para os custos de milhares de bilhões. O Projeto Stargate está morto. Este é o momento Sputnik na corrida para a AGI, o cisne cinza chegou.

    • Max says:

      Mesmo desacelerando, bastante, relativamente ao que dizes, não há dúvida que a DeepSeek é um projeto muito interessante. Destaco:
      “Ao contrário de muitas empresas chinesas de IA que dependem muito do acesso a hardware avançado, a DeepSeek concentrou-se em maximizar a otimização de recursos orientada por software”.
      “De acordo com Liang [Wenfeng, o fundador] quando ele montou a equipe de pesquisa da DeepSeek, não estava à procura de engenheiros experientes para construir um produto voltado para o consumidor. Em vez disso, concentrou-se em estudantes de doutoramento das principais universidades da China, incluindo as Universidades de Pequim e de Tsinghua, que estavam ansiosos para provar a si mesmos”.
      https://www.wired.com/story/deepseek-china-model-ai/

      • Max says:

        De facto a IA DeepSeek provocou uma tremenda queda nas ações da Nvidia nesta 2ª Fª:
        – As ações da NVIDIA caíram mais de 15%, mais de 500 mil milhões de dólares.
        – NVIDIA, TSMC e ASML entre os stocks ameaçados pela DeepSeek
        Isto percebe-se – se a IA estava a ser desenvolvida com suporte em investimentos massivos em hardware, e agora surge uma forma de ser suportada em software, com hardware reduzido, os fabricantes de hardware levam um valente tombo.

        • Técnico Meo says:

          Não Mestre Aves. Tem a ver com eficiência:
          MoE
          MLA
          FP8
          MTP
          Caching,

          e sobretudo o preço da energia barato na China, e custos mais baixos de tudo no seu geral. Treinamento e bases dados foram buscar em tudo o que conseguiram mais pelo treinamento dos modelos que estão em vigor ( OPENAI, LLAMA, ANTROPIC, outros). O hardware tem de lá estar na mesma (senão não conseguias servir milhares de pessoas ao mesmo tempo) apesar das restrições impostas pelos USA, eles lá conseguiram meter mãos nalguns milhares de H100 da Nvidia e também da AMD. A deepseek é boa, muito boa para opensource, mas não é melhor que o modelo de topo da openai. O que é, é muito mais barato. Eu também uso. Queres respostas / progamação boas, tenta obter pelo menos de 3 modelos diferentes. Sempre podes tu fazer um MOE no openweblm de várias IAs – metes 10 paus na API do openrouter e fazes a festa pra 2 meses ou mais.

          • Max says:

            2.800 gráficas H800, modelo desenvolvido pela Nvidia para o mercado chinês e que não está sujeito ao embargo (têm uma capacidade de processamento inferior à A100, sujeita a embargo). É o que a DeepSeek diz que precisou para treinar o modelo, em 53 dias.
            Mas o ponto é que a DeepSeek anunciou que o treino do seu algoritmo custou menos de 6 milhões de dólares (para arredondar, 5 milhões de dólares) que compara com o custo de 5 mil milhões de dólares) do modelo da OpenAI e segue-se ao anúncio de Trump e Sam Altman, de um investimento de 500 mil milhões de dólares para desenvolvimento da IA. Há aqui uma mensagem clara da China, que consegue o mesmo com muito menos, que não se trata de uma questão de dinheiro.
            Há bastante tempo que nos EUA andam nervosos com o que a China é capaz de fazer com hardware mais barato e que não está sujeito a embargo. Pela queda do valor das ações da Nvidia e de outros fabricantes de hardware, o susto agora foi dos grandes.

          • Técnico Meo says:

            Sim, mas também têm uns milhares de H100. Não é treino de algoritmo, é só treino, alinhamento, os weights e aplicaram as técnicas que te referi. As LLms não têm algoritmo, isso é nas redes sociais. 2.800 gráficas H800 isso não é nada Mestre. Quanto ao projeto do orange men, não faço verdadeira ideia do que eles querem fazer, não se percebe lá assim muito bem. Bem , o que eles anunciam o que gastaram na deepseek não sei se corresponde á realidade, afinal estamos a falar da CCP da china…mas o modelo é bom, bem classificado nos benchmarks ( não é o melhor) mais leve, mais rápida a treinar por ter tido menos intervenção humana no seu ajuste ( alinhamento), usar o MOA foi inteligente, pois só usas as partes que interessam na tua questão especifica, entre as outras técnicas referidas. É OPENSOURCE, se tiveres máquina (quase ninguém tem) podes ter em casa com toda a privacidade adjacente. Nada disto foi original em termos de IA, mas o que a china faz e muito bem é agarrar no que existe de bom e fazer um bom produto , a um preço imbatível. Pessoal em pânico vendeu shares da Nvidia e ainda bem, já comprei na queda e já subiu outra vez, mais um bocadinho acima do que eu quero e vendo outra vez. Não sei como estás de material mas já vi que gostas, se tiveres pelo menos uma gtx4080 podes baixar uma nova que saiu ontem multimodal, a qwen VL 25, com 72B, muito, muito boa nos benchmarks e podes ter em casa com toda a privacidade, sem espiões ou roubo de dados.

          • Max says:

            Ninguém mais diz que têm ou usaram A100, mas tu bates o pé. Quanto ao algoritmo, o treino de um modelo tem que ter por base um algoritmo, inspirado no cérebro humano (redes neurais). Sim, os chineses da DeepSeeko desenvolveram o seu.

          • Técnico Meo says:

            São os weights e o alinhamento é definem o seu comportamento. O seu treinamento e as bases de dados de treinamento. Não é algoritmo nenhum. Rede neuronal sim, muita algebra e vetorização. Não se fazem omeletes sem ovos, o que li é que conseguiram por as mãos nalgumas H100, e complementam com as h800 e tudo o mais que lhe consigam deitar a mão. As H100 foi o que li já em vários sítios, não critico, eu teria feito exatamente o mesmo. Eu gosto da deepseek, deu um abanão, quantos mais abanões dão, mais o consumidor recebe. Foi o Ceo da Nvidia que o disse das H100, não fui eu. Aqui: https://www.reddit.com/r/NVDA_Stock/comments/1i9wkg1/chinese_ai_lab_deepseek_has_50000_nvidia_h100_ai/

          • Técnico Meo says:

            E não utilizaram nada e novo mundo da IA: usaram os métodos que te indiquei . Fizeram um excelente produto final com estas técnicas: MoE, MLA, FP8, MTP, Caching- são formas eficientes de inferência e treinamento- Não te estou a criticar, estou a informar-te, e tens bom gosto mestre Aves.

          • Max says:

            Não foi o CEO da Nvidia que disse que a DeepSeek tinha 50.000 NVIDIA H100. Foi o CEO da Scale AI, Alexandr Wang, acrescentando que a DeepSeek tinha mas não podia confirmar.

          • Técnico Meo says:

            Vê o antepenúltimo parágrafo.
            Está lá a confirmação do wang. Se conseguiram algumas h100 fora do embargo foram espertos, nada a criticar. Ainda hoje fartei-me de usar o deepseek. Está mais rápida hoje. E graças a eles isto está bem lançado, a openai vai ser obrigada a baixar os preços das API. Mais dois modelos novos da qwen nas últimas 24 horas muito bons também. A seguir o grok 3 já anunciado pra esta semana e a meta dou-lhe duas semanas. Mês de janeiro quente quente

    • Miguel says:

      Qual ]e o stock disso?

  2. Técnico Meo says:

    Excelente artigo. A questão inicial e as questões de follow-up são muito importantes. Eu costumo dizer que o modelo de IA pode ser tanto melhor ou pior proporcionalmente á inteligência biológica que está á frente dela. Deepseek, gpt4, qwen 2.5, bard, PHI 4, llama 3.3 , todas elas boas, incluindo as que se podem rodar em casa aos afortunados do hardware. Vai ficar melhor ainda. Próximo ano a robótica vai começar a surgir mais.

  3. Jorge says:

    O ponto 5 foi pensado para ser utilizado pelos políticos.

  4. Sergio says:

    Ja sao 18h.. tambem ja esperava um artigo do pplware sobre a deepseek, sei que ja falaram em dezembro, mas o interesse e o impacto no mundo está a ser agora.

Deixe um comentário

O seu endereço de email não será publicado.

You may use these HTML tags and attributes: <a href="" title="" rel=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.