Resultados — Visao geral

Arquivos gerados

Apos a execucao completa do pipeline, os seguintes arquivos sao gerados em src/results/:

Arquivo	Descricao
`open_questions.json`	Respostas dos 3 modelos as 12 questoes abertas
`multiple_choice.json`	Respostas dos 3 modelos as 122 questoes de multipla escolha
`curator_annotations.json`	Anotacoes de curadoria (dificuldade + legislacao) para todas as questoes

Arquivo	Descricao
`eval_open_questions.csv`	Notas por rubrica para questoes abertas
`eval_multiple_choice.csv`	Respostas e acertos para multipla escolha
`eval_comparative.csv`	Notas comparativas (argumentacao, precisao, coesao)
`eval_cross_metrics.csv`	Metricas automatizadas entre pares de modelos

Arquivo	Descricao
`leaderboard.csv`	Leaderboard consolidado com todas as metricas por modelo
`model_comparison.png`	Grafico de comparacao (3x2 grid)

O leaderboard consolida as seguintes metricas por modelo:

Coluna	Origem	Descricao
`open_score`	Rubrica	Pontuacao media nas questoes abertas
`mc_accuracy_%`	MC	Acuracia em multipla escolha (%)
`mc_precision`	MC (sklearn)	Precision macro
`mc_recall`	MC (sklearn)	Recall macro
`mc_f1`	MC (sklearn)	F1 macro
`argumentacao`	Comparativa	Media da nota de argumentacao (0-5)
`precisao`	Comparativa	Media da nota de precisao (0-5)
`coesao`	Comparativa	Media da nota de coesao (0-5)
`final_score`	Comparativa	Score final ponderado

O grafico model_comparison.png apresenta uma grade 3x2:

Linha 1, esquerda: Rubrica — pontuacao media por modelo
Linha 1, direita: Avaliacao comparativa — argumentacao, precisao e coesao
Linha 2: Metricas cross-model — BLEU, ROUGE-1, ROUGE-L e BERTScore F1 por par
Linha 3: Multipla escolha — Acuracia, Precision, Recall e F1 por modelo