Estrutura do projeto
.
├── LICENSE # Licenca MIT
├── README.md # Documentacao principal
├── .gitignore # Arquivos ignorados pelo Git
├── docs/ # Documentacao detalhada
│ ├── intro.md # Introducao e visao geral
│ ├── references.md # Referencias bibliograficas
│ ├── getting-started/ # Primeiros passos
│ │ ├── prerequisites.md
│ │ ├── installation.md
│ │ ├── quick-start.md
│ │ └── project-structure.md
│ ├── datasets/ # Documentacao dos datasets
│ │ ├── overview.md
│ │ ├── oab-bench.md
│ │ ├── oab-exams.md
│ │ └── team-distribution.md
│ ├── curation/ # Curadoria automatizada
│ │ ├── overview.md
│ │ ├── difficulty-level.md
│ │ ├── basic-legislation.md
│ │ └── prompts.md
│ ├── inference/ # Inferencia com LLMs
│ │ ├── overview.md
│ │ ├── hardware.md
│ │ ├── models.md
│ │ └── prompts.md
│ ├── evaluation/ # Estrategias de avaliacao
│ │ ├── overview.md
│ │ ├── open-questions.md
│ │ ├── multiple-choice.md
│ │ ├── comparative.md
│ │ ├── cross-metrics.md
│ │ └── metrics/
│ │ ├── accuracy-precision.md
│ │ ├── bleu.md
│ │ ├── rouge.md
│ │ └── bertscore.md
│ └── results/
│ └── overview.md
└── src/ # Codigo-fonte
├── load_dataset.py # Carregamento e preparacao dos datasets
├── run_models.py # Inferencia com LLMs + curadoria
├── evaluation.py # Avaliacao e geracao de leaderboard
├── templates/ # Templates de prompts (Jinja)
│ ├── multiple_choice.jinja
│ ├── multiple_choice_system.jinja
│ ├── judge_open_question.jinja
│ ├── judge_comparative.jinja
│ ├── curator_difficulty.jinja
│ └── curator_legislation.jinja
├── dataset/ # Datasets (ignorado pelo .gitignore)
└── results/ # Resultados (ignorado pelo .gitignore)
Descricao dos arquivos principais
Scripts Python
| Arquivo |
Descricao |
src/load_dataset.py |
Baixa os datasets OAB Bench e OAB Exams, extrai o subconjunto designado e salva como CSV |
src/run_models.py |
Executa inferencia com os tres modelos para questoes abertas e multipla escolha, alem de tarefas de curadoria |
src/evaluation.py |
Avalia respostas usando rubrica, comparacao qualitativa, metricas automatizadas e gera o leaderboard final |
Templates de prompts
| Template |
Uso |
multiple_choice.jinja |
Formata questao + alternativas para o modelo |
multiple_choice_system.jinja |
System prompt para MC — solicita resposta em JSON |
judge_open_question.jinja |
Prompt do modelo juiz para avaliacao por rubrica |
judge_comparative.jinja |
Prompt do modelo juiz para avaliacao comparativa |
curator_difficulty.jinja |
Prompt de curadoria — classificacao de dificuldade |
curator_legislation.jinja |
Prompt de curadoria — identificacao de legislacao base |