Muito bom o conteúdo, com certeza vou utilizar. Mas falando sobre scannear documentos, o 4o faz isso, só não pode enviar no prompt informando que é um documento, apenas diga para extrair os dados. Eu faço isso.
Excelente trabalho, obrigado. Passei por este problema e quase perco um cliente porque vários PDFs dele continham imagens. Solucionei usando a Llama Parse. Depois dá uma olhada nela, tem uma cota bem generosa gratuita.
👉 COMUNIDADE SMARTDEV: https://smartdev.academy/?utm_source=youtube&utm_medium=comments&utm_campaign=como-zerox-esta-mudando-o-futuro-do-rag&utm_content=0R0ndyZC3mM
Você é "o cara!" parabéns pelos vídeos! 👏👏
Muito bom!
Eu estou usando Docling para realizar este procedimento dos documentos convertendo em Markdown e Jason!
Muito bom o conteúdo, com certeza vou utilizar. Mas falando sobre scannear documentos, o 4o faz isso, só não pode enviar no prompt informando que é um documento, apenas diga para extrair os dados. Eu faço isso.
Excelente trabalho, obrigado. Passei por este problema e quase perco um cliente porque vários PDFs dele continham imagens. Solucionei usando a Llama Parse. Depois dá uma olhada nela, tem uma cota bem generosa gratuita.
Dica,, Atualmente utilizo a gemini google, como agente para limpar o arquivo e devolver só texto..
Qual a diferença entre Zerox e Docling ?
Testa o docling pode economizar grana tokens
python3 -m venv venv
source venv/bin/activate
pip install docling
docling " link do pdf pode ser local ou site" –ocr –to json
No caso de um documento que contem texto e imagem, no caso eu usaria OCR, o modelo trata tudo como imagem ?
Top o conteúdo!
Gostei muito do PyMuPDF4LLM, mais que excelente!
Excelente aula.Obrigado.
Cara, RAG é foda demais. Estou tendo excelentes resultados, mas realmente, tem uns PDFs e outros documentos que são bem zuados para poder usar.
mais um excelente tutorial. Já entrei na formação e lá tem muito mais. Parabéns 😊