Avaliacao — Visao geral

Estrategias de avaliacao

O projeto utiliza quatro estrategias complementares para avaliar as respostas dos modelos:

Estrategia	Tipo de questao	Abordagem
Rubrica	Abertas	Modelo juiz avalia com base nos criterios oficiais
Comparativa	Abertas	Modelo juiz compara respostas entre modelos
Metricas automatizadas	Abertas	BLEU, ROUGE, BERTScore entre pares
Multipla escolha	MC	Comparacao exata com gabarito + sklearn

Cada abordagem captura aspectos diferentes da qualidade das respostas:

Rubrica: Avalia aderencia aos criterios oficiais da OAB (mais proxima da avaliacao real)
Comparativa: Avalia qualidade relativa entre modelos em dimensoes especificas (argumentacao, precisao, coesao)
Metricas automatizadas: Medem similaridade textual/semantica de forma reprodutivel e objetiva
Multipla escolha: Avaliacao exata e deterministica com metricas de classificacao padronizadas

As avaliacoes por rubrica e comparativa utilizam o modelo llama3.2:3b como juiz, com temperature=0 para garantir determinismo.

Todas as funcoes de avaliacao estao em src/evaluation.py:

Funcao	Descricao
`evaluate_open_questions()`	Avaliacao por rubrica
`evaluate_comparative()`	Avaliacao comparativa
`evaluate_cross_metrics()`	Metricas automatizadas (BLEU, ROUGE, BERTScore)
`evaluate_multiple_choice()`	Avaliacao de multipla escolha
`generate_leaderboard()`	Consolidacao e visualizacao