Metricas automatizadas (Cross-Model)

Objetivo

Comparar as respostas entre pares de modelos usando metricas automatizadas de NLP, fornecendo medidas reprodutiveis e objetivas de similaridade textual e semantica.

Metricas utilizadas

Metrica	O que mede	Escala
BLEU	Overlap de n-gramas (precisao)	0-1
ROUGE-1	Overlap de unigramas (recall)	0-1
ROUGE-2	Overlap de bigramas (recall)	0-1
ROUGE-L	Maior subsequencia comum (recall)	0-1
BERTScore F1	Similaridade semantica via embeddings	0-1

Para detalhes de cada metrica, consulte: - BLEU - ROUGE - BERTScore

Como funciona

Gera todos os pares possiveis de modelos usando itertools.combinations
Para cada par, coleta as respostas as mesmas questoes
Calcula as metricas usando o framework HuggingFace Evaluate
Salva os resultados

Pares avaliados

Com 3 modelos (Mistral, Llama 3, Gemma), sao gerados 3 pares: - Mistral vs Llama 3 - Mistral vs Gemma - Llama 3 vs Gemma

Implementacao

import evaluate as hf_evaluate

bleu_metric = hf_evaluate.load("bleu")
rouge_metric = hf_evaluate.load("rouge")
bertscore_metric = hf_evaluate.load("bertscore")

# Para cada par de modelos:
bleu = bleu_metric.compute(predictions=preds, references=refs)
rouge = rouge_metric.compute(predictions=preds, references=refs)
bert = bertscore_metric.compute(predictions=preds, references=refs, lang="pt")

O BERTScore utiliza lang="pt" para selecionar o modelo multilingual adequado (bert-base-multilingual-cased).

Saida

Os resultados sao salvos em src/results/eval_cross_metrics.csv com as colunas: - pair — Par de modelos (ex: "llama3.2:3b vs gemma2:2b") - bleu, rouge1, rouge2, rougeL, bertscore_f1

Complementaridade com a avaliacao por juiz

As metricas automatizadas complementam (nao substituem) a avaliacao comparativa por juiz:

Aspecto	Juiz LLM	Metricas automatizadas
Reprodutibilidade	Baixa (varia entre execucoes)	Alta (deterministicas)
Subjetividade	Alta (interpreta qualidade)	Baixa (mede similaridade)
O que mede	Qualidade juridica	Similaridade textual/semantica