top of page

Decifre benchmarks de LLM em poucos passos

  • Foto do escritor: Clara Duarte
    Clara Duarte
  • 18 de dez. de 2024
  • 2 min de leitura

Atualizado: 19 de dez. de 2024


Introdução aos benchmarks


De tempos em tempos, novos modelos de linguagem são anunciados como revolucionários: melhores que seus antecessores e superiores à concorrência. Esses lançamentos costumam incluir tabelas comparativas que destacam a mensagem principal: “Somos melhores em quase tudo”.


Mas como essas afirmações são feitas? O que significam esses números?



Por que benchmarks importam?


Imagine que você está vendendo um carro. Diferentes compradores valorizam características distintas: uns buscam segurança, outros desempenhos. Para atingir um público mais amplo, você apresenta dados universais como classificação de segurança ou eficiência de combustível.


Os benchmarks de LLM funcionam de maneira semelhante. Eles são conjuntos de testes padronizados criados para avaliar modelos em diversas tarefas, garantindo consistência e objetividade na comparação.


tabela informativa


Como funcionam os benchmarks?


Cada benchmark mede uma habilidade específica dos modelos de linguagem:


  • HumanEval: avalia a capacidade de escrever código. Inclui 164 desafios de programação validados por testes unitários.


  • Raciocínio: mede a habilidade de resolver perguntas complexas por dedução e análise. Exemplos incluem problemas avançados de física e matemática (como os do benchmark GPQA).


  • Language understanding (MMLU): testa compreensão de linguagem em diversos contextos.


  • Resolução de problemas matemáticos (MATH): avalia habilidades matemáticas por meio de questões estruturadas.


Esses testes utilizam o mesmo conjunto de perguntas para todos os modelos, garantindo comparação justa e consistente.



Few-shot e chain-of-thought (CoT)


  • Few-shot learning: refere-se ao número de exemplos fornecidos ao modelo para entender a tarefa (ex: 0-shot significa nenhum exemplo).


  • Chain-of-Thought (CoT): solicita que o modelo explique seu raciocínio, melhorando respostas em tarefas complexas.


    tabela informativa

Por exemplo, ao resolver um problema matemático, o modelo é incentivado a detalhar os passos lógicos até chegar à solução.



Limitações dos benchmarks


Falta de transparência


  • Muitas vezes, não há informações claras sobre o treinamento do modelo ou a execução dos testes.

  • Isso levanta a questão da contaminação, onde dados de teste podem ter sido incluídos no treinamento.


Memorização vs. inteligência


  • Modelos podem obter resultados impressionantes por memorizar dados, não necessariamente por compreender as tarefas. Por exemplo, o ChatGPT teve bom desempenho no LSAT, mas muitas questões do teste estão amplamente disponíveis na internet.



Como escolher o melhor modelo para você?


Seja você um desenvolvedor ou usuário final, crie um processo personalizado de avaliação com base nos seus objetivos:


Para empresas:


  1. Identifique o caso de uso (ex.: atendimento ao cliente).

  2. Crie um conjunto de dados com perguntas frequentes dos seus clientes.

  3. Teste diferentes modelos, analisando a qualidade das respostas.


Para usuários individuais:


  1. Liste seus principais prompts (ex.: "escreva uma carta de apresentação").

  2. Compare as respostas geradas por diferentes modelos.

  3. Escolha com base na qualidade e consistência das respostas.


Mesmo que os testes não sejam estatisticamente rigorosos, essa abordagem ajuda a tomar decisões baseadas nas suas necessidades reais.



Os benchmarks são ferramentas úteis, mas têm limitações. Avaliações personalizadas, focadas nos seus objetivos específicos, oferecem um caminho mais confiável para escolher o modelo ideal.


Lembre-se: não se baseie apenas em tabelas; teste e valide com o que realmente importa para você.


Leia mais sobre aqui.

Comments


bottom of page