
A corrida para desenvolver sistemas de Inteligência Artificial capazes de realizar tarefas complexas de escritório está a levar as empresas a procurar novos tipos de dados. De acordo com um novo relatório, a criadora do ChatGPT está a solicitar a trabalhadores contratados que façam o upload de documentos reais, criados em empregos anteriores ou atuais, para ajudar no treino dos seus modelos.
Esta estratégia visa alimentar os sistemas com exemplos concretos de trabalho profissional, na esperança de que isso permita automatizar funções mais complexas no futuro.
Ficheiros reais para um treino mais eficaz
Segundo a informação avançada pela Wired, a OpenAI e a empresa de dados de treino Handshake AI estão a pedir a colaboradores externos (“contractors”) que enviem exemplos de “trabalho real, feito no local de trabalho”. A ideia não é apenas descrever as tarefas, mas sim fornecer os ficheiros brutos que resultaram dessas atividades.
A apresentação da empresa, citada no relatório, solicita especificamente “resultados concretos”, rejeitando meros resumos. A lista de exemplos desejados inclui documentos do Microsoft Word, ficheiros PDF, apresentações em PowerPoint, folhas de cálculo do Excel, imagens e até repositórios de código.
Este movimento sugere um esforço coordenado para obter dados de alta qualidade e alta complexidade, que muitas vezes não estão disponíveis publicamente na web, essenciais para o desenvolvimento de agentes de IA capazes de executar tarefas administrativas e criativas com maior autonomia.
Riscos de privacidade e propriedade intelectual
A solicitação levanta preocupações imediatas sobre a confidencialidade e a propriedade intelectual das empresas onde esses documentos foram originalmente criados. A OpenAI instrui os contratados a eliminar qualquer informação proprietária ou dados de identificação pessoal (PII) antes de fazerem o upload dos ficheiros.
Para auxiliar neste processo, a empresa recomenda o uso de uma ferramenta do ChatGPT denominada “Superstar Scrubbing”, supostamente desenhada para limpar os dados sensíveis. No entanto, a responsabilidade final sobre o que é ou não confidencial recai sobre o trabalhador individual.
Especialistas legais alertam para o perigo desta abordagem. Evan Brown, advogado especializado em propriedade intelectual, referiu à Wired que qualquer laboratório de IA que adote esta estratégia está a “colocar-se em grande risco”. A questão central é a confiança excessiva nos contratados para decidirem o que constitui informação confidencial de terceiros, o que pode levar a violações contratuais e fugas de segredos comerciais de antigos empregadores.
Até ao momento, a gigante da IA recusou-se a comentar estas práticas.

