Você confiaria em uma inteligência artificial para te indicar as melhores fontes de pesquisa? Se a resposta é sim, melhor pensar duas vezes.
Um novo estudo comparou dois dos modelos mais populares do momento – o americano OpenAI o1 e o chinês DeepSeek R1 – e descobriu: quando o assunto é raciocínio e precisão de citações, nem toda IA é tão esperta quanto parece.
O teste, batizado de Reasons Benchmark, colocou os modelos para gerar citações e explicar seus raciocínios a partir de frases isoladas.
Segundo o site The Conversation, o OpenAI o1 acertou cerca de 65% das vezes e manteve um raciocínio claro, embora ainda cometesse erros em 35% dos casos. O DeepSeek R1, por outro lado, acertou apenas 35% e apresentou uma taxa de alucinação próxima de 85%.
A diferença ficou ainda mais gritante quando os pesquisadores pediram para os modelos conectar ideias complexas, como inteligência artificial, bancos de dados e cognição humana. O OpenAI o1 não só entendeu as relações como também explicou bem cada conexão. Já o DeepSeek, embora eficiente e acessível, ainda enfrenta desafios para aprimorar seu raciocínio.
A importância de raciocinar com precisão nas IAs
A precisão das citações depende muito de como a inteligência artificial processa a informação. Quando tenta entender um parágrafo inteiro ou um texto completo de uma vez, a IA acaba generalizando demais e perde os detalhes importantes. Em vez de explicar certinho uma ideia específica, ela faz um resumo meio genérico, que nem sempre ajuda quem precisa da informação certa.

Isso acontece porque os modelos de linguagem foram treinados para reconhecer padrões – e eles se saem melhor no começo e no fim dos textos do que no meio, onde as informações costumam ser mais escondidas. No final, o que deveria ser uma análise vira quase uma paráfrase: sem foco e com risco de misturar ideias que não têm tanta relação.
Leia mais:
- OpenAI quer que sua IA saiba “pedir ajuda” a outros modelos; entenda
- DeepSeek teria transferido dados de usuários e avisos sem consentimento
- Cuidado ao usar chatbots: seus dados podem estar em perigo
O foco em frases isoladas mostrou como esse tipo de análise é essencial para entender a capacidade real de raciocínio dos modelos. Em vez de apenas resumir blocos grandes de texto, as IAs precisaram identificar conceitos específicos e associá-los corretamente às fontes. A metodologia revelou diferenças importantes na forma como cada modelo interpreta, conecta e justifica as informações.
OpenAI ainda leva vantagem no raciocínio
Apesar de empatar com o OpenAI o1 em testes de matemática, programação e raciocínio científico, o DeepSeek R1 ainda apresenta dificuldades quando a tarefa exige precisão na hora de citar fontes. A diferença de desempenho nos testes foi clara: o o1 mostrou ser mais consistente na hora de conectar informações e justificar suas escolhas.

Essa distância entre os dois modelos reflete o momento atual da corrida pela inteligência artificial. Mesmo com novos concorrentes surgindo, a OpenAI continua liderando em integração de conhecimento e capacidade de raciocínio, o que pode estar ligado ao volume e à qualidade dos dados usados no treinamento do o1.
A empresa também anunciou recentemente uma nova ferramenta de pesquisa profunda, capaz de gerar relatórios com citações e explicar o raciocínio por trás de cada resposta. Ainda é cedo para saber o impacto dessa novidade entre pesquisadores, mas uma lição fica clara: sempre vale a pena conferir duas vezes as fontes sugeridas por qualquer IA.
O post ChatGPT vs DeepSeek: teste revela qual IA raciocina melhor apareceu primeiro em Olhar Digital.