Definition

DeepSeek explicado: tudo o que você precisa saber

No mundo da IA, prevalece a ideia de que o desenvolvimento de modelos de linguagem de ponta e de grande porte exige recursos técnicos e financeiros significativos. Essa é uma das principais razões pelas quais o governo dos EUA prometeu apoiar o Projeto Stargate de US$ 500 bilhões do presidente Donald Trump.

Mas a empresa chinesa de inteligência artificial DeepSeek virou essa ideia de cabeça para baixo. Em 20 de janeiro de 2025, a DeepSeek lançou seu modelo R1 LLM por uma fração do custo que outros fornecedores tiveram que incorrer para desenvolvê-lo. O DeepSeek também oferece seus modelos R1 sob uma licença de código aberto, permitindo que sejam usados gratuitamente.

Poucos dias após seu lançamento, o assistente de IA DeepSeek — um aplicativo móvel que fornece uma interface de chatbot para o DeepSeek-R1 — disparou para o topo da parada da App Store da Apple, ultrapassando o aplicativo móvel ChatGPT da OpenAI. A ascensão meteórica do DeepSeek em uso e popularidade desencadeou uma liquidação do mercado de ações em 27 de janeiro de 2025, quando os investidores questionaram o valor dos grandes fornecedores de IA dos EUA, incluindo a Nvidia. Microsoft, Meta Platforms, Oracle, Broadcom e outras gigantes da tecnologia também sofreram quedas significativas à medida que os investidores reavaliavam as avaliações de inteligência artificial.

O que é DeepSeek?

A DeepSeek é uma empresa de desenvolvimento de inteligência artificial (IA) sediada em Hangzhou, China. A empresa foi fundada por Liang Wenfeng, formado pela Universidade de Zhejiang, em maio de 2023. Wenfeng também foi cofundador da High-Flyer, um fundo de hedge quantitativo com sede na China que é dono da DeepSeek. Atualmente, o DeepSeek opera como um laboratório independente de pesquisa em IA sob a égide da High-Flyer. O valor total do financiamento e a avaliação da DeepSeek não foram divulgados publicamente.

O DeepSeek se concentra no desenvolvimento de LLMs de código aberto. O primeiro modelo da empresa foi lançado em novembro de 2023. A empresa iterou seu LLM principal diversas vezes e desenvolveu diversas variações diferentes. No entanto, foi somente em janeiro de 2025, após o lançamento de seu modelo de raciocínio R1, que a empresa se tornou mundialmente famosa.

A empresa oferece vários serviços para seus modelos, incluindo uma interface web, um aplicativo móvel e acesso à API.

OpenAI e DeepSeek

O DeepSeek representa o mais recente desafio para a OpenAI, que se estabeleceu como líder do setor com a estreia do ChatGPT em 2022. A OpenAI ajudou a impulsionar o setor de IA generativa com sua família de modelos GPT, bem como sua classe o1 de modelos de raciocínio.

Embora ambas as empresas estejam desenvolvendo LLMs de IA generativa, elas têm abordagens diferentes.

 

OpenAI

DeepSeek

Ano de fundação

2015

2023

Sede

São Francisco, Califórnia.

Hangzhou, China

Abordagem de desenvolvimento

Amplos recursos de IA

Modelos de código aberto eficientes

Modelos-chave

GPT-4o, o1

DeepSeek-V3, DeepSeek-R1

Modelos especializados

Dall-E (geração de imagem),
Whisper (reconhecimento de voz)

DeepSeek Coder (codificação), Janus Pro (modelo de visão)

Preços da API
(por milhão de tokens)

o1: $15 (entrada), $60 (saída)

DeepSeek-R1: $ 0,55 (entrada), $ 2,19 (saída)

Política de código aberto

Limitado

Principalmente de código aberto

Abordagem de treinamento

Ajuste fino supervisionado e baseado em instruções

Aprendizagem por reforço

Custo de desenvolvimento

Centenas de milhões de dólares por o1 (estimado)

Segundo a empresa, o DeepSeek-R1 custará menos de US$ 6 milhões

 

Inovações em treinamento na DeepSeek

O DeepSeek usa uma abordagem diferente para treinar seus modelos R1 do que o OpenAI. O treinamento exigiu menos tempo, menos aceleradores de IA e menor custo de desenvolvimento. O objetivo da DeepSeek é alcançar inteligência artificial geral, e os avanços da empresa em capacidades de raciocínio representam um progresso significativo no desenvolvimento de IA.

Em um artigo de pesquisa, a DeepSeek descreve as muitas inovações que desenvolveu como parte do modelo R1, incluindo:

  • Aprendizagem por reforço. O DeepSeek usou uma abordagem de aprendizagem por reforço em larga escala focada em tarefas de raciocínio.
  • Engenharia de recompensa. Os pesquisadores desenvolveram um sistema de recompensa baseado em regras para o modelo que supera a maioria dos modelos de recompensa neural comumente usados. Engenharia de recompensa é o processo de projetar o sistema de incentivo que orienta o aprendizado de um modelo de IA durante o treinamento.
  • Destilação. Usando técnicas eficientes de transferência de conhecimento, os pesquisadores do DeepSeek conseguiram comprimir recursos em modelos com apenas 1,5 bilhão de parâmetros.
  • Rede de comportamento emergente. O avanço do DeepSeek no comportamento emergente é a descoberta de que padrões complexos de raciocínio podem se desenvolver naturalmente por meio do aprendizado por reforço, sem a necessidade de programação explícita.

Modelos de linguagem em larga escala DeepSeek

Desde que a empresa foi fundada em 2023, a DeepSeek lançou uma série de modelos de IA generativos. A cada nova geração, a empresa tem trabalhado para melhorar tanto as capacidades quanto o desempenho de seus modelos:

  • Codificador DeepSeek. Lançado em novembro de 2023, este é o primeiro modelo de código aberto da empresa projetado especificamente para tarefas relacionadas à codificação.
  • Mestrado em Administração de Empresas pela DeepSeek. Lançado em dezembro de 2023, esta é a primeira versão do modelo de uso geral da empresa.
  • DeepSeek-V2. Lançado em maio de 2024, é a segunda versão do LLM da empresa e tem foco em alto desempenho e menores custos de treinamento.
  • Codificador DeepSeek V2. Lançado em julho de 2024, este é um modelo de 236 bilhões de parâmetros que oferece uma janela de contexto de 128.000 tokens, projetado para desafios de codificação complexos.
  • DeepSeek-V3. Lançado em dezembro de 2024, o DeepSeek-V3 usa uma arquitetura de pool de especialistas, capaz de lidar com uma variedade de tarefas. O modelo tem 671 bilhões de parâmetros com um comprimento de contexto de 128.000.
  • DeepSeek-R1. Lançado em janeiro de 2025, este modelo é baseado no DeepSeek-V3 e se concentra em tarefas de raciocínio avançado que competem diretamente com o modelo o1 da OpenAI em desempenho, mantendo uma estrutura de custos significativamente menor. Assim como o DeepSeek-V3, o modelo tem 671 bilhões de parâmetros com um comprimento de contexto de 128.000.
  • Janus-Pro-7B. Lançado em janeiro de 2025, o Janus-Pro-7B é um modelo de visão que pode entender e gerar imagens.

Por que isso está causando alarme nos EUA

Embora tenha havido muita expectativa em torno do lançamento do DeepSeek-R1, isso levantou alarmes nos EUA, desencadeando preocupações e uma liquidação no mercado de ações de tecnologia. Na segunda-feira, 27 de janeiro de 2025, o Nasdaq Composite caiu 3,4 % na abertura, com a Nvidia caindo 17% e perdendo aproximadamente US$ 600 bilhões em capitalização de mercado.

O DeepSeek está causando alarme nos Estados Unidos por vários motivos, incluindo os seguintes:

  • Interrupção de custos. A DeepSeek afirma ter desenvolvido seu modelo R1 por menos de US$ 6 milhões. O desenvolvimento de baixo custo ameaça o modelo de negócios das empresas de tecnologia dos EUA que investiram bilhões em IA. O DeepSeek também é mais barato para os usuários que o OpenAI.
  • Conquistas técnicas apesar das restrições. A exportação de chips de GPU de alto desempenho e aceleradores de IA dos Estados Unidos é restrita à China. No entanto, apesar disso, o DeepSeek mostrou que é possível desenvolver IA de ponta sem acesso à tecnologia mais avançada dos EUA.
  • Ameaça ao modelo de negócio. Ao contrário do OpenAI, que é uma tecnologia proprietária, o DeepSeek é de código aberto e gratuito, desafiando o modelo de receita das empresas dos EUA que cobram taxas mensais por serviços de IA.
  • Preocupações geopolíticas. Com sede na China, a DeepSeek desafia o domínio tecnológico dos EUA em inteligência artificial. O investidor em tecnologia Marc Andreessen chamou isso de "momento Sputnik" da inteligência artificial, comparando-o ao avanço da corrida espacial da União Soviética na década de 1950.

Proibições do DeepSeek

Países e organizações ao redor do mundo já baniram o DeepSeek, alegando preocupações com ética, privacidade e segurança dentro da empresa. Como todos os dados dos usuários são armazenados na China, a maior preocupação é a possibilidade de vazamento de dados para o governo chinês. O LLM também foi formado com uma visão de mundo chinesa — um problema potencial dado o governo autoritário do país.

Locais onde o DeepSeek é proibido incluem:

  • Agências do Governo Australiano.
  • Governo Central da Índia.
  • Itália.
  • NASA.
  • Ministério da Indústria da Coreia do Sul.
  • Agências governamentais de Taiwan.
  • Governo do Estado do Texas.
  • Congresso dos Estados Unidos.
  • Marinha dos EUA
  • Pentágono dos Estados Unidos.

Ataque cibernético DeepSeek

A popularidade do DeepSeek não passou despercebida pelos invasores cibernéticos.

Em 27 de janeiro de 2025, a DeepSeek relatou ataques maliciosos em larga escala em seus serviços, forçando a empresa a limitar temporariamente o registro de novos usuários. O momento do ataque coincidiu com o momento em que o aplicativo de assistente de IA da DeepSeek ultrapassou o ChatGPT como o aplicativo mais baixado na App Store da Apple.

Apesar do ataque, o DeepSeek manteve o serviço para os usuários existentes. O problema persistiu até 28 de janeiro, quando a empresa informou que havia identificado o problema e implementado uma solução.

A DeepSeek não especificou a natureza exata do ataque, embora especulações generalizadas em relatórios públicos indicassem que foi algum tipo de ataque DDoS direcionado à sua API e plataforma de bate-papo na web.

Dados do DeepSeek expostos

Em 29 de janeiro de 2025, a Wiz Research — uma equipe do fornecedor de segurança em nuvem Wiz Inc. — publicou suas descobertas sobre um banco de dados de back-end acessível publicamente que estava espalhando informações confidenciais na web — um erro de segurança cibernética de "novato". As informações incluíam histórico de bate-papo do DeepSeek, dados de back-end, fluxos de log, chaves de API e detalhes operacionais. O DeepSeek tirou o banco de dados do ar logo após receber as informações. Não está claro por quanto tempo o banco de dados ficou exposto.

Sobre o autor: Sean Michael Kerner é um consultor de TI, entusiasta e curioso de tecnologia. Ele instalou o Token Ring, configurou o NetWare e é conhecido por compilar seu próprio kernel Linux. Sean assessora organizações da indústria e de mídia sobre questões tecnológicas.

Este conteúdo foi atualizado pela última vez em Fevereiro 2025

Saiba mais sobre Inteligência artificial e automação