Pular para o conteúdo

Aprenda a Ajustar e Treinar Modelos de Linguagem (LLMs) Com Seus Próprios Dados Rápido e Facilmente Usando AutoTrain

Claro! Para que eu possa ajudá-lo com um artigo otimizado para SEO, precisarei de mais informações sobre o tema ou a descrição que você gostaria que eu seguisse. Você pode fornecer detalhes como o tópico, palavras-chave específicas, público-alvo e quaisquer outros pontos que acha importantes? Isso me ajudará a criar um artigo relevante e eficaz.

Título: Como Ajustar e Treinar Modelos de Linguagem com Seus Próprios Dados de Forma Rápida e Eficiente Usando o AutoTrain

Nos últimos anos, os modelos de linguagem (LLMs) têm se mostrado ferramentas poderosas para o processamento de dados e a geração de conteúdo. No contexto do serviço público, é essencial que esses modelos sejam adaptados às necessidades específicas da sociedade. Neste cenário, surge o AutoTrain, uma ferramenta que promete facilitar o ajuste e o treinamento de LLMs com dados próprios de forma rápida e eficaz.

Como servidor público com mais de 16 anos de experiência, convido a todos a refletirem sobre como essa tecnologia pode ser aplicada em nossas operações diárias. A personalização de LLMs com dados da nossa realidade pode levar a melhorias significativas na comunicação com o cidadão, na análise de processos e na tomada de decisões informadas. Por exemplo, ao treinar um modelo com dados relevantes do município, poderíamos melhorar a capacidade de resposta a demandas comuns da população, proporcionando um atendimento mais ágil e direcionado.

O processo de utilização do AutoTrain é acessível, permitindo que mesmo aqueles que não possuem conhecimentos técnicos avancem na implementação. Isso democratiza o acesso à tecnologia e pode incentivar a equipe do serviço público a se envolver em inovações que facilitem a rotina de trabalho e melhorem a eficiência dos serviços prestados.

É fundamental que, ao considerarmos essa implementação, tenhamos uma visão crítica sobre a qualidade dos dados utilizados e como eles refletem a diversidade da população que atendemos. Perguntas como “Estamos captando as vozes de todos os segmentos sociais?” e “Como garantir que as soluções geradas sejam inclusivas?” devem guiar nossa discussão.

Ao integrarem ferramentas como o AutoTrain em nosso trabalho cotidiano, temos a oportunidade de não apenas otimizar processos, mas também de proporcionar um serviço mais próximo e eficaz para a sociedade. Que possamos todos pensar sobre como essa tecnologia pode se tornar uma aliada na construção de um serviço público mais eficiente e responsivo às reais necessidades da nossa população.

Créditos para Fonte

Aprenda tudo sobre automações do n8n, typebot, google workspace, IA, chatGPT entre outras ferramentas indispensáeis no momento atual para aumentar a sua produtividade e eficiência.

Vamos juntos dominar o espaço dos novos profissionais do futuro!!!

#FineTune #Train #LLMs #Data #EASILY #FAST #AutoTrain

18 Comment on this post

  1. 💓Thank you so much for watching guys! I would highly appreciate it if you subscribe (turn on notifcation bell), like, and comment what else you want to see! Love y'all and have an amazing day fellas.☕ To help and Support me, Buy a Coffee or Donate to Support the Channel: https://ko-fi.com/worldofai – Thank you so much guys! Love yall

    🧠 Follow me on Twitter: https://twitter.com/intheworldofai

    🔥 Become a Patron (Prviate Discord): https://patreon.com/WorldofAi

  2. i was able to use the colab and create a model, which looks like the .gz file is around 90mb. i have no idea how to run inference on it, even just playing around. when i try to run some code in colab it exhausts the free version. any idea on how to test it, just to see how it responds?

    from transformers import AutoTokenizer, AutoModelForCausalLM
    import torch

    # Make sure you adjust the path to where your model and tokenizer files are located
    model_directory = '/content/my_autotrain_llm/checkpoint-4'

    # Load the tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_directory)

    # Load your fine-tuned model
    model = AutoModelForCausalLM.from_pretrained(model_directory)

    # Prepare input text
    input_text = "The capital of France is"
    input_ids = tokenizer.encode(input_text, return_tensors='pt')

    # Generate predictions (inference)
    with torch.no_grad():
    outputs = model.generate(input_ids, max_length=50, num_beams=5, early_stopping=True)

    # Decode and print the generated text
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(generated_text)

  3. How can auto train using "mosaicml/mpt-7b-chat" model
    Below code is giving error
    !autotrain llm

    –train

    –project_name resume_100_MPT_llm

    –model mosaicml/mpt-7b-chat

    –data_path /root/dev-sharad/Resume/LLAMA-2/input_data_json_format

    –use_peft

    –use_int4

    –learning_rate 2e-4

    –train_batch_size 2

    –num_train_epochs 3

    –trainer sft

    –model_max_length 2048

    –block_size 2048

  4. for LLM's the current NOT advanced Autotrain is not there yet. the data and the type of model it wants to train is not the typical alpaca format QA instruction type LLM most people expect. Not sure why huggingface built it that way. if you want to train with huggingface then you'll need to use the advanced autotrain which again unfortunately doesn't really work well in the huggingface space. it works fine in colab or your own server but the huggingface space crashes all the time. some words for those starting out…

  5. I think I'm too stupid for that.
    I want to fine tune the model with my data.
    “AutoTrain” wants me to upload a .csv or .jsonl.
    Can I write 1.000 words in one “instruction” in a .csv and have a text with 10.000 words in one output?

    I want the model to be trained on my data.
    If I write short sentences as a question/answer in a .csv, it doesn't make any sense.
    Instruction: "Is water wet" Output "yes water is wet".
    Chatgpt can do that anyway, it only helps with text adventures or something similar.

Join the conversation

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *