Pular para o conteúdo

DeepSeek: Saiba mais sobre o mistério envolvendo a chinesa que impactou o Vale do Silício

Banner Aleatório

Em janeiro de 2025, um modelo chinês fazia as ações de diversas big techs derreterem e colocava o Vale do Silício em estado de alerta: o DeepSeek. Até então pouco conhecida pelo mundo, a inteligência artificial chinesa desencadeou um verdadeiro terremoto nos mercados globais ao levantar dúvidas sobre o domínio tecnológico e financeiro das gigantes americanas de IA.

Banner Aleatório

O impacto foi imediato: a Nvidia perdeu quase US$ 600 bilhões em valor de mercado em um único dia, enquanto empresas como Microsoft, Alphabet e fabricantes de chips também registraram quedas expressivas. Em apenas três pregões, as chamadas Magnificent Seven viram US$ 643 bilhões evaporarem — um montante equivalente a quase todo o valor total de mercado de todas as empresas listadas na B3.

Na época, o motivo do pânico nos EUA vinha da ideia de que o DeepSeek parecia combinar desempenho competitivo, código aberto e custos drasticamente menores — o clássico “bom e barato”. O modelo não só rivalizava com soluções como o ChatGPT, como chegou a superar o chatbot da OpenAI em popularidade na Apple Store e alimentar rumores de supostas salas de crise em empresas como a Meta. Mas um ano depois, o que aconteceu com a chinesa?

O sucesso da DeepSeek, no entanto, foi tão rápido quanto a sua queda. Poucos dias após provocar um estrago bilionário nas big techs americanas, a startup chinesa tentou se manter nos holofotes ao anunciar o Janus-Pro, seu modelo gerador de imagens. Além disso, um mês depois, chegou a firmar integrações com fabricantes de smartphones na China para levar seus serviços diretamente aos celulares. As iniciativas, porém, não tiveram o mesmo efeito disruptivo do lançamento inicial. Sem novos avanços capazes de abalar o mercado global e ofuscada pela reação acelerada das concorrentes, a DeepSeek passou, aos poucos, a ser “esquecida” pelo mercado.

Em mais uma tentativa de retornar aos holofotes, em setembro do mesmo ano a DeepSeek anunciou um novo modelo de inteligência artificial, numa movimentação que soou quase desesperada diante da perda de relevância no mercado global. Batizado de DeepSeek-V3.2-Exp, o modelo experimental prometia avanços no processamento de longas sequências de texto e a adoção da chamada Sparse Attention, arquitetura que, segundo a empresa, reduziria custos computacionais e aumentaria a eficiência.

A chinesa também apostou em uma estratégia agressiva de preços, cortando em mais de 50% o valor de sua API para desenvolvedores. Ainda assim, apesar de reacender pontualmente o interesse do setor, o anúncio ficou longe de repetir o impacto das versões que haviam abalado o Vale do Silício meses antes, reforçando a dificuldade da DeepSeek em transformar um retorno técnico promissor em um novo fenômeno de mercado.

Novo método de treinamento de LLMs

Agora, um ano após o auge e a subsequente perda de protagonismo, a DeepSeek volta a chamar atenção por um caminho diferente. Na última semana, a startup chinesa publicou um documento técnico no qual apresenta um novo método para o treinamento de LLMs — Large Language Models, os sistemas de IA usados em chatbots como o ChatGPT e Gemini.

Batizado de “Manifold-Constrained Hyper-Connections” (mHC, numa versão mais curta), esse método promete melhorar a escalabilidade dos modelos ao mesmo tempo em que reduz o consumo de energia e a demanda computacional no treinamento.

Assinado por 19 autores, incluindo o fundador Liang Wenfeng, o trabalho foi divulgado em plataformas abertas como o arXiv e o Hugging Face e reacende as expectativas do mercado para o próximo grande lançamento da empresa, previsto para o início de 2026.

Enquanto as Hyper-Connections comuns melhoram o desempenho ao misturar mais caminhos de informação, elas podem fazer o sinal “explodir” ou se perder ao longo das camadas, dificultando o treinamento. O mHC resolve isso impondo uma nova regra: as conexões residuais passam a combinar informações de maneira controlada, como uma média ponderada bem comportada, preservando a identidade do sinal entre as camadas. Com isso, o modelo consegue crescer em largura e profundidade sem instabilidade, mantém ganhos de desempenho e praticamente não adiciona custo computacional. Além disso, o método é flexível e abre espaço para novas formas de organizar as conexões do modelo, incentivando avanços no desenho de arquiteturas mais eficientes e robustas no futuro.

A plataforma DeepSeek surgiu no mercado com a promessa de revolucionar o setor de Inteligência Artificial, trazendo inovações que impactaram profundamente o Vale do Silício. No entanto, recentemente, surgiram rumores sobre a fundadora da empresa, uma renomada cientista chinesa, levantando questionamentos sobre seu paradeiro e o futuro da companhia.

O caso da chinesa que abalou o Vale do Silício nos faz refletir sobre o poder e o impacto da tecnologia em nossa sociedade. Como podemos utilizar a Inteligência Artificial de forma ética e responsável para melhorar a qualidade de vida das pessoas? Como podemos garantir que inovações como o DeepSeek sejam utilizadas para o bem comum?

É importante que cada um de nós faça sua parte para buscar respostas e soluções que nos permitam aproveitar ao máximo o potencial da Inteligência Artificial, contribuindo para um mundo mais justo e equilibrado. O futuro da tecnologia está em nossas mãos – cabe a nós decidir como iremos utilizá-lo.

Créditos Para a Fonte Original

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *