DeepSeek anuncia DeepSeek-V3-0324 de graça e melhor que ChatGPT
A startup chinesa de inteligência artificial DeepSeek lançou, em 24 de março de 2025, uma atualização significativa de seu modelo de linguagem de grande porte V3, denominado DeepSeek-V3-0324. Essa atualização intensifica a competição com líderes de tecnologia dos Estados Unidos, como OpenAI e Anthropic, no mercado de IA, que evolui rapidamente. Disponibilizado na plataforma Hugging Face (Hugging Face), o modelo demonstra melhorias notáveis em áreas como raciocínio e capacidades de codificação, com custos operacionais mais baixos, consolidando DeepSeek como um player global relevante.
Contexto e Histórico da DeepSeek
DeepSeek foi fundada por Liang Wenfen, também fundador do fundo de hedge High-Flyer, e tem se destacado desde seu início em 2023. A empresa ganhou atenção por desenvolver modelos de IA que competem com concorrentes ocidentais, como OpenAI e Meta, apesar das restrições dos EUA sobre a exportação de chips de alta performance para a China. Esses modelos utilizam técnicas inovadoras, como Mixture-of-Experts (MoE) e multihead latent attention (MLA), para reduzir custos computacionais, conforme detalhado em relatórios técnicos (DeepSeek-V3 Technical Report).
DeepSeek lançou seu modelo V3 em dezembro de 2024 e, posteriormente, o modelo R1 em fevereiro de 2025, marcando uma série de avanços que desafiam a narrativa de superioridade tecnológica dos EUA. A empresa opera com foco em pesquisa, sem planos detalhados de comercialização, o que a isenta de algumas regulações chinesas sobre tecnologia voltada ao consumidor, segundo a Wikipedia (DeepSeek – Wikipedia).
Detalhes do DeepSeek-V3-0324
O DeepSeek-V3-0324 mantém a mesma estrutura do modelo V3, com 671 bilhões de parâmetros totais e 37 bilhões ativados por token, conforme descrito no repositório GitHub (DeepSeek-V3 GitHub). Treinado em 14,8 trilhões de tokens de alta qualidade, o modelo utiliza arquiteturas MoE e MLA para eficiência, exigindo apenas 2,788 milhões de horas de GPU H800 para seu treinamento completo. A atualização, lançada em 24 de março de 2025, traz refinamentos sutis, como melhorias na experiência do usuário em plataformas oficiais (site, app e mini-programa), com o modo “deep thinking” desativado por padrão, segundo o blog Analytics Vidhya (DeepSeek V3-0324: Generated 700 Lines of Code without Breaking).
Embora a página do Hugging Face indique que a estrutura do modelo é idêntica à do V3, benchmarks independentes sugerem melhorias significativas. Por exemplo, um usuário no Reddit destacou que o DeepSeek-V3-0324 alcançou 81,2 no MMLU-Pro (ante 75,9 do V3) e 68,4 no GPQA (ante 59,1), indicando avanços em tarefas de raciocínio e matemática (Reddit – Deepseek V3 0324). Além disso, um artigo no Medium sugere que o modelo supera o Claude 3.7 Sonnet em codificação, lógica e resolução de problemas complexos, tornando-se a melhor escolha para desenvolvedores (DeepSeek V3–0324 vs DeepSeek-V3).
Comparação com Concorrentes
O DeepSeek-V3-0324 parece competir diretamente com modelos como o Claude 3.7 Sonnet e o o3-mini, oferecendo desempenho comparável ou superior em tarefas específicas, especialmente em codificação e raciocínio estruturado. Um teste no benchmark polyglot da aider mostrou que o modelo alcançou 55%, superando sua versão anterior e posicionando-se como o segundo melhor modelo não focado em raciocínio profundo, atrás apenas do Sonnet 3.7, conforme relatado no Analytics Vidhya (DeepSeek V3-0324: Generated 700 Lines of Code without Breaking). Essa eficiência é notável, considerando que o custo de treinamento do V3 foi estimado em apenas US$ 6 milhões, contra centenas de milhões gastos por empresas
americanas, segundo a BBC (What is DeepSeek, the Chinese AI startup that shook the tech world?).
Impacto na Indústria de IA
A atualização do DeepSeek-V3-0324 tem implicações significativas para a indústria global de IA. Ela desafia a dominância de empresas americanas, como OpenAI e Anthropic, mostrando que startups chinesas podem inovar sob restrições, como as sanções sobre chips, conforme destacado pelo MIT Technology Review (How Chinese company DeepSeek released a top AI reasoning model despite US sanctions). Essa eficiência pode encorajar outras empresas a adotar abordagens mais econômicas, impactando investimentos em centros de dados e chips, e beneficiando pesquisadores e desenvolvedores em mercados com recursos limitados.
Além disso, o sucesso de DeepSeek contribuiu para debates geopolíticos, com o presidente dos EUA, Donald Trump, mencionando a empresa como um “alerta” para a necessidade de competir, segundo a Al Jazeera (What’s DeepSeek, China’s AI startup sending shockwaves through global tech?).
A queda de US$ 600 bilhões no valor de mercado da Nvidia após o lançamento de modelos anteriores da DeepSeek ilustra o impacto no setor, conforme relatado pelo AP News (What is DeepSeek, the Chinese AI company upending the stock market?).
Tabela de Comparação de Desempenho
Abaixo, uma tabela comparativa baseada em benchmarks mencionados:
Modelo | MMLU-Pro | GPQA | AIME | Observação |
---|---|---|---|---|
DeepSeek-V3 (anterior) | 75,9 | 59,1 | 39,6 | Base para comparação |
DeepSeek-V3-0324 | 81,2 | 68,4 | – | Melhorias significativas em raciocínio |
Claude 3.7 Sonnet | – | – | – | Supera em tarefas gerais, perde em codificação |
Nota: Dados de AIME para DeepSeek-V3-0324 não disponíveis nos benchmarks revisados.
O lançamento do DeepSeek-V3-0324 em 24 de março de 2025 reforça a posição da DeepSeek como um player relevante no cenário global de IA. Com melhorias em desempenho, custos reduzidos e acesso aberto via Hugging Face, o modelo não apenas compete com líderes como OpenAI e Anthropic, mas também pode redefinir padrões de eficiência na indústria. Essa evolução destaca a capacidade de inovação chinesa sob restrições e promete impactar a dinâmica competitiva no setor.