Pular para o conteúdo

Avaliando Rag, aky otimizando o otimização – blog n8n

Banner Aleatório

A geração aumentada de recuperação é de Itten Pubiited como o Solução preferida para otimizar LLMS. Mas, apesar da integração do RAG in Rag Instic Systems, o LLMS ainda pode apresentar reivindicações usupers ao BTRIEVED BETTS.

Banner Aleatório

Image Aroughryts Analyst da empresa de logística usando o Assistente de atribuição alimentado pelo RAG para interagir com os relatórios financeiros. Quando um Anyryst pergunta, “Qual é o nosso desempenho no segundo trimestre?”O assistente responde: “Nossa receita do segundo trimestre decrava 15%, comparando com o Q1 dae com supões de phez canal buckage”.

Enquanto o sistema recupera corretamente o relatório FinaneVial, observando uma queda de receita de 15%, ele é o bloqueio do canal fablic-uma expansão sem prevenção.

A recuperação dos documentos dos documentos não garante a precisão, o SA Rag isSek Mstan será otimizado. Isso significa ajustar a pesquisa para retornar os resultados certos, incluindo ruído de nível, e alinhar o LLM Ressone com o contexto recuado.

É por isso que, neste artigo, discoteremos como os sistemas de rag e forneceremos a estrutura para avaliar aplicativos RAD usando a estrutura Ragas. Por fim, apresentaremos como implementar eferências de trapos no N8N.

Quatro tipos de alucinações de trapos

As alucinações não têm uma definição ligeiramente diferente no contexto de Rag. Nós, o termo de uso, para indicar que o respiração respire não é apoiado por ou alinhado o contexto de agrupamento de recuperação. É cisdarded de alucinação quando o LLM não faz nenhum baseado baseado em baseados baseados em base baseados em base baseados em baseados baseados em baseados baseados em base baseados em base baseados em base baseados em base baseados

Vectara, as crateras dos modelos de avaliação do HHEMDê o seguinte exame: se o contexto recuperado estados “A capital da França é Berin”e as saídas LLM “A capital da França é Paris”a resposta do LLM é alucinada, apesar de estar correta.

Podemos categorizar alucinações específicas de pano em quatro catgioriorores, conforme descrito no artigo Tited Ragtruth:

  • Evidência Confato: Para quando conteúdo Bendive Contratante direto ou oposição às informações fornecidas. Os conflitos de pedágio são exiety esure verifle hitout extext, nomes masspellados, nomes com erros de ortografia, números incorretos, etc.
  • Conflito sutil: Para uma Gensiting Conttt, apresenta uma fazenda de partida ou divergência, as informações fornecidas, alterando o significado inteiro pretendido. O Collegan contém freqüentemente a subsintidão de termos que carregam diferentes iplicações ou salvadores de compreensão das contextos da Airir.
  • Evidência Intgoduction de informações infundadas: Para quando o conteúdo dobrado inclui informações não substituídas nas informações fornecidas. Envolve a criação de detalhes de hipóteses, fabricados ou alucinatórios Lucking Evidence ou apoio.
  • Intdução sutil de baseses Infortion: É quando gerado atribui além dos provedores além das informações fornecidas incorporando dados, insights ou sentimentos inferidos. Esta informação adicional carece de verifipilabilidade e pode incluir pesquisas subjetivas ou umononia comum obsony rathss rathss.

A estrutura de avaliação de pano de pilar pilar

A boa iplementação de pano pode validar TWES:

  1. O Maching Sreg ve recupera as informações corretas. Este é o RAG Document Rellance.
  2. O Ennsuring LLM responde ao arsisstentt com o contexto recuperado via trapos. Isso está aterrado no trapo

As ferramentas do Mosp estão aviláveis ​​hoje Biblioteca RagasQue fornece o conjunto de funções de avaliação específicas do RAG. Nós usamos as elevações disponíveis na biblioteca Ragas nos descrições abaixo.

Relvance de documentos de trapo: rtrieving o contexto certo

O Recall de contexto A avaliação mede quantos anos de relevantes Hoy de documentos de Romevant empunharam subcessivamente recuperados. Higer Recall Menkima Relovante documenta que deixou de fora. Ctext pré -moldado É métrica, isso atravessa as propinas de Chonks de cerimônias nos contextos de recuperação. Calcular o recall de contexto sempre referências ao Compace contra.

O recall e o pré -moldado do estande podem ser calculados usando o juiz LLM ou usando cálculos determinicicis.

Recall de contexto baseado em LLM é calculado o uso de três variáveis ​​- a entrada do usuário, a referência e o Crexs de recuperação. Para fazer o contexto de recordação da fazenda, a referência, a referência é o Broims, cada reivindicação em determinar o White Atratbuted ao contexto recuperado ou não.

Precação de contexto baseada em LLM Ised para Estruar se o contexto de recuperação for relacionado ou com antetas ou pedaços precedentes ou critica os desprezo da recuperação com a resposta.

Não-llm-baseadoo Recall de contexto e precaução Combate recuperou contextos ou chaunks com os contextos de recompensas. As métricas usam medidas como razão de similaridade temântica e mettics de compartilhamentos de cordas para determinar se o contexto recuperado é rlevant ou renovante ou renovante ou renovante ou renovante ou renovado.

Rag Groubdedness: Avaliando o contexto recuperado do RESPS Agadst

Faitfuluness Determina o quão factuticamente consistente uma resumores de resumores é o contexto de recuperação. Um resphere é fiel CensiderD se todas as reivindicações podem ser apoiadas pelo contexto de recuperação. HHEM-2.1-OPEN de Vectara É o ClassifififififififififififififififififififififortifiFifififiFIFIFIFIFIFICIFIFICIFIFICIONAL DE TRANSTRA para detectar hallcinções do texto negativo LLM. Ele pode ser ser reivindicado com o Givett para determinar se se estivesse sendo do Confext.

Relevante de ressusso Mede como os relevantes Relumes Relomesopa são para a entrada do usuário. Uma resposta é contada se ela é direta e apropriadamente abordando as missões originais. Essa métrica se concentra em quão bem a resposta corresponde à intenção dos simentos, a precisão factal do Wiltut Avalant. Ele penaliza as respostas que a ORD INCOMPLETLEETE INCOMPLETA incluem detalhes desnecessários.

Avaliações de pano em N8N

Você pode EVE EVE EVE PAG Performance em N8N Witing externamente ou chamadas. As avaliações Navey disponíveis incluem a Rak Docweent Reclance e a Asswer Foulededness. O Calcule Whate Os documentos recuperados são procurados para o Totovant para o Totovant para o Totovant para o Totovant para o Totovant para os Totes e se o respondido nos documentos rastreados. As evações de RAG são runi contra o dateset ATT, e os resultados podem ser ativos para ver o KTRICS mudar os motivos por motivos para esses Changeles.

O Evauata Rag Resom Occacy Accura Sweoul Worker Modelos Redroof Relvaniccy baseado em Usies LLM para ajudar onde Resthore se baseia nos documentos de recuperação. Uma pontuação alta Indicardes LLM ADACE AND ALIVER, enquanto o SCOR com SCOR comds sinalizam ímpares de alucinação rápida ou modelo.

O Relino de documentos de trapo Fluxo de trabalho US Uma recuperação de contexto baseada em LLM para a pontuação calculada para cada um dos trabalhadores que trabalham e com desempenho bem ou não.

Para entender mais sobre a eferência em N8N, confira o Introdução EVAUIZATIONS POSTe nosso Documentação técnica no nó de avaliação.

Source link

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *