Este artigo foi escrito por André Verderedator técnico e analista do setor. Pagamos a Andrew, mas ele se recusa a escrever qualquer outra coisa que não seja sua própria opinião.
Os grandes entraram no mercado, o OpenClaw se apropriou da estratégia de segurança MCP e todos começaram a codificar por vibração, mas apenas se já soubessem como codificar.
Realmente parece que 2025 foi o ano dos agentes, principalmente porque a indústria chegou a um consenso sobre como esperamos que um agente se comporte. Isso e porque descobrimos que podemos ignorar os tamanhos das janelas de contexto gerando subagentes.
Quando escrevemos pela primeira vez o Ferramentas de desenvolvimento de agentes de IA empresarialnos concentramos muito nos blocos de construção dos agentes de escrita, como RAG, memória, ferramentas e avaliações. Um ano depois, todas estas capacidades parecem ter sido, até certo ponto, comoditizadas. Esperamos agora que a maioria dos fornecedores permita que os clientes usem um documento como contexto e base, ou que se integrem ao Promptfoo (agora adquirido pela OpenAI) para avaliações.
É verdade que existem alguns nichos, como a reclassificação de documentos RAG com base na semelhança semântica, que ainda são diferenciadores. No entanto, muito do trabalho dos agentes hoje nem precisa do RAG. Até mesmo coisas como pesquisa na web, que você precisava orquestrar explicitamente, agora estão disponíveis nativamente com a maioria dos serviços básicos de LLM, como ChatGPT e Claude.
O MCP teve uma ascensão meteórica e depois fracassou. Apreciei as tentativas da Anthropic de adicionar recursos de segurança, como autenticação em torno do MCP, mas o OpenClaw jogou tudo isso pela janela. OpenClaw não está nas cartas de nenhuma organização sensata considerando sua tendência de excluir dados e expor TODAS as vulnerabilidades.
Com isso em mente, precisamos de uma atualização bastante drástica em nossa estrutura para avaliar construtores de agentes de IA. Portanto, tenho um conjunto de perguntas que quero responder sozinho para entender como será a versão 2026 do relatório.
- O que foi comoditizado ou implementado nativamente em modelos vanilla ou serviços LLM?
- O que está em relação ao ano passado?
- O que ainda é relevante do ano passado, mas subestimado?
- O que deve mudar na nossa avaliação hoje?
- O que os fornecedores fizeram no ano passado?
- E quanto aos agentes de codificação?
O que foi comoditizado ou implementado nativamente em modelos vanilla ou serviços LLM?
Hoje, mesmo os produtos básicos de LLM como serviço chegam perto de serem agentes. Mencionei a pesquisa na web acima, mas algumas das outras incluem:
- Projetos de Claude e ChatGPT, que permitem aos usuários fazer upload de documentos, códigos e arquivos para criar coleções temáticas que podem ser referenciadas várias vezes.
- Aplicativos Claude Connectors e ChatGPT, que se conectam a aplicativos, arquivos e serviços. Esses conectores são construídos por terceiros.
- Nativo Habilidades.mdque são modelos de prompt glorificados, mas ainda substituem algum trabalho adicional que teria sido necessário nos construtores de agentes no ano passado.
- Menções honrosas a Claude Code e Codex que não fazem realmente parte do escopo, mas precisam ser reconhecidas
Isso significa que todos esses recursos agora são apostas e esperamos que todos os construtores de agentes os tenham.
O que está em relação ao ano passado?
O eixo da codificabilidadeque avalia os recursos disponíveis em um produto que permite às organizações automatizar processos usando grandes modelos de linguagem. Alguns pontos de avaliação que aparecerão novamente incluirão:
- Roteamento e ramificação, que consulta o agente ou processo especializado mais apropriado com base no conteúdo, intenção ou requisitos da entrada.
- Paralelização, execute vários agentes ou processos de IA simultaneamente quando suas tarefas são independentes umas das outras
- Trabalhadores orquestradores, nos quais um LLM central divide dinamicamente as tarefas, delega-as aos LLMs trabalhadores e sintetiza seus resultados.
- Agentes Sequenciais, onde os agentes de IA são projetados para trabalhar em uma ordem específica, onde cada agente executa sua tarefa especializada e passa os resultados para o próximo agente na sequência.
- Multiagentes, que podem interagir em uma conversa enquanto mantêm o conhecimento das respostas uns dos outros e do estado geral da conversa.
O que ainda é relevante do ano passado, mas subestimado?
O componente determinístico. Parece que aqueles que desejam automatizar processos usando agentes (inclusive em campos proprietários e difíceis de automatizar, como redes corporativas onde faço muito trabalho) preferem cutucar um agente 20 vezes para obter a resposta que desejam, em vez de trabalhar antecipadamente na definição de alguma lógica determinística.
Também vi que a parte da lógica determinística não está muito focada em executar funções (por exemplo, normalizar dados para um esquema comum), mas sim em garantir que os agentes passem por um conjunto de processos pré-definidos ao concluir uma tarefa. Por exemplo, você deseja que um agente de IA em operações de segurança sempre verifique um URL ou hash de arquivo no VirusTotal. Você não quer que ele raciocine para verificá-los, caso isso não aconteça.
Um bom exemplo abaixo é o de um agente de IA executando uma auditoria de segurança 50 vezes, mapeando se todas as vulnerabilidades foram detectadas.
Na captura de tela abaixo, você vê meu teste com um aplicativo vulnerável escrito propositalmente que é executado em 50 iterações do comando /security-review de Claude Code e depois avaliado manualmente. O aplicativo é exatamente igual, byte por byte, em todas as execuções. Às vezes, todos os bugs são identificados e outras vezes ignorados.

O que deve mudar na nossa avaliação hoje?
No ano passado, avaliamos codificabilidade versus integrabilidade.
Provavelmente abandonaremos todo o eixo de integrabilidade. Ter um portfólio de integrações de API pré-configuradas é ótimo e tremendamente útil, mas parece ser subutilizado no contexto de agentes de IA. Provavelmente iremos reduzi-lo e colocá-lo no eixo de codificabilidade. Algumas capacidades certamente serão mantidas, como escrevendo integrações personalizadas usando sem código ou empurrando/pulando dados – por meio de solicitações HTTP GET/POST/PUT genéricas. Provavelmente avaliarei se os fornecedores podem escrever integrações ad-hoc usando LLMs usando documentos de referência de API de ferramentas de terceiros.
Também manteremos e refinaremos gatilhos. Se você olhar para o OpenClaw, verá que grande parte de sua autonomia e inteligência vem da ideia de um batimento cardíaco. É um termo totalmente novo para um gatilho programado, então parece que o agente “lembra” de verificar seus e-mails a cada poucas horas.
Com o eixo Y liberado, o atual projeto de plano visa avaliar o empreendimento, ou a prontidão para o empreendimento. Este é um termo abrangente que define como um LLM pode ser implantado e configurado de maneira responsável. Isso fará a diferença entre um agente pessoal rudimentar que os consumidores ou empreendedores individuais estão usando e implantações responsáveis que são adequadas para organizações que realmente lidam com dados de clientes e coisas assim.
Isso incluirá observabilidade, prevenção de perda de dados, transparência e verificabilidade, filtragem e firewall baseados em proxy, autenticação e autorização, identidade do agente, linhagem, controles de acesso baseados em funções, killswitches, reversão, sandboxing de código de agente, execução de código, confiabilidade e proteção de tempo de execução, hospedagem LLM, integridade da cadeia de suprimentos de software, definição de política, detecção de atividades fora da política, detecção e tratamento de erros.
Algumas mudanças no eixo de codificabilidade avaliarão como os agentes podem se comportar de forma autônoma fora do fluxo de trabalho predefinido, como criar novos subagentes espontaneamente para realizar tarefas (e evitar implicitamente quaisquer problemas de desvio de contexto). Há muitas nuances para casos de uso como o acima. Considere um habilidades.md arquivo para um agente principal, que teria que ser herdado e/ou modificado para agentes recém-criados, de modo que eles tenham as ferramentas e permissões corretas.
O que os fornecedores fizeram no ano passado?
À medida que o espaço evoluiu, é bastante reconfortante ver que a maioria dos fornecedores ainda está no mercado e está a construir mais funções de nível empresarial. Sem entrar em muitos detalhes, alguns destaques dos fornecedores incluídos anteriormente incluem:
- n8n levantando as séries B e C, uma avaliação total de US$ 1 bilhão e >180 mil estrelas no GitHub.
- Dify e Langflow ultrapassam 100 mil estrelas no Github, o que significa que a competição é acirrada
- Flowise sendo adquirido pela Workday. Estou curioso para ver como eles integraram isso no portfólio.
- Stack AI obtendo alguns certificados empresariais como SOC2 e ISO 27001
- O novo slogan da Workato “Ilumine sua IA com Workato Enterprise MCP”. Espero que em breve seja substituído por “Workato Enterprise Skills.md”
A maioria dos grandes provedores de LLM também entrou no espaço de desenvolvimento de agentes visuais sem código. Isso inclui Google Opal, OpenAI Agent Builder, Google ADK e Microsoft Studio Copilot.
Com base nas observações da última década, os grandes fornecedores que entram num mercado definido por start-ups manifestar-se-ão da seguinte forma:
- As bases de usuários nativos gravitarão naturalmente para esses produtos quando os casos de uso permitirem. Ou seja, alguém com uma assinatura OpenAI que deseja construir um agente de IA usando uma ferramenta de baixo código usará primeiro o OpenAI Agent Builder.
- Nos casos em que os recursos nativos não atendem aos requisitos do cliente, os usuários avaliarão o restante do mercado.
- As start-ups e os pequenos players terão de inovar mais que os grandes fornecedores. Esta é apenas a progressão natural quando você compara uma organização enxuta que é entregue rapidamente com um grande fornecedor onde um novo recurso tem um tempo de lançamento muito mais longo. Mesmo os fornecedores de modelos básicos de IA que são lançados relativamente rápido para seu tamanho são bastante lentos em comparação com as startups.
- Os grandes players que entram no mercado já terão sido superados em termos de recursos. A intenção do relatório é validar essa suposição, mas espero que a maioria dos leitores compartilhe a intuição de que o OpenAI Agent Builder não é tão abrangente em sua capacidade de definir a lógica de agente como ferramentas criadas especificamente para isso.
E quanto aos agentes de codificação?
Agentes de codificação são para codificadores. Você pode pensar que qualquer um pode vibrar com aplicativos de código ou algo assim, mas a realidade é que nenhum trabalhador do conhecimento responsável, não desenvolvedor, trabalhando em uma organização escreverá aplicativos personalizados e terá expectativas de que sejam sustentáveis e confiáveis. A maior parte da infraestrutura de software para executar essas lógicas de automação e aplicativos associados será gerenciada pela própria ferramenta.
Portanto, exploraremos o ângulo de uso da automação baseada em código gerado por LLM em um fluxo de trabalho mais amplo, como escrever um script python de processamento de dados, mas não avaliaremos explicitamente a capacidade de escrever aplicativos usando LLMs.
Ligue para participar
Convido todos os fornecedores ou usuários a contribuir e criticar o relatório antes de publicá-lo. Este relatório, tal como o do ano passado, será uma análise em papel baseada na documentação técnica disponível.
Portanto, aceito correções e experiências em primeira mão, independentemente de serem profissionais ou não! Por favor, envie-me uma mensagem no LinkedIn.

