Inicio rapido

Este guia descreve o fluxo minimo para reproduzir os experimentos do projeto.

Fluxo de execucao

O pipeline completo consiste em tres etapas sequenciais:

Etapa 1 — Carregar datasets

python src/load_dataset.py

Este script: - Baixa o dataset OAB Bench (questoes abertas) do GitHub da Maritaca AI - Baixa o dataset OAB Exams (multipla escolha) do HuggingFace - Extrai o subconjunto de questoes designadas (12 abertas + 122 multipla escolha) - Salva os arquivos CSV em src/dataset/

Etapa 2 — Executar inferencia + curadoria

python src/run_models.py

Este script: - Submete as questoes abertas aos tres modelos (Mistral, Llama 3, Gemma) - Submete as questoes de multipla escolha aos tres modelos - Executa tarefas de curadoria (dificuldade + legislacao) com o modelo juiz - Salva resultados em src/results/

Tempo estimado: Varia conforme o hardware. Em GPU GTX 1650, cada modelo leva alguns minutos por tipo de questao.

Etapa 3 — Avaliar e gerar leaderboard

python src/evaluation.py

Este script: - Avalia questoes abertas por rubrica (modelo juiz) - Avalia questoes abertas por comparacao qualitativa entre modelos - Calcula metricas automatizadas (BLEU, ROUGE, BERTScore) entre pares de modelos - Avalia multipla escolha (acuracia + Precision + Recall + F1) - Gera o leaderboard consolidado e graficos de comparacao

Saidas

Apos a execucao completa, os seguintes arquivos serao gerados em src/results/:

Arquivo	Descricao
`open_questions.json`	Respostas dos modelos as questoes abertas
`multiple_choice.json`	Respostas dos modelos as questoes de multipla escolha
`curator_annotations.json`	Anotacoes de curadoria (dificuldade + legislacao)
`eval_open_questions.csv`	Avaliacoes por rubrica das questoes abertas
`eval_multiple_choice.csv`	Avaliacoes das questoes de multipla escolha
`eval_comparative.csv`	Avaliacoes comparativas entre modelos
`eval_cross_metrics.csv`	Metricas automatizadas entre pares de modelos
`leaderboard.csv`	Leaderboard consolidado
`model_comparison.png`	Grafico de comparacao dos modelos