Curadoria — Visao geral

O que e curadoria

Curadoria e o processo de enriquecimento dos dados com metadados que avaliam cada questao sob a otica da Complexidade de Raciocinio (Reasoning) e do Aterramento (Grounding) exigidos da IA. Neste projeto, cada questao e anotada automaticamente com:

Nivel de dificuldade (Complexidade do Raciocinio do LLM) — Classificacao do tipo de processamento cognitivo que o LLM precisa realizar:
- Nivel 1: Recuperacao Factual Direta (Fact Retrieval)
- Nivel 2: Raciocinio Logico-Dedutivo (Logical Deduction)
- Nivel 3: Hermeneutica Juridica Complexa (Complex Hermeneutics)
Subdominio Semantico — Area de especialidade juridica (ex: Direito Civil, Direito Penal, Direito Constitucional)
Corpus de Referencia (Ground Truth) — Legislacao ou fonte normativa onde a resposta correta deve estar ancorada para evitar alucinacoes

Abordagem automatizada

A curadoria e realizada de forma automatizada usando um modelo de linguagem como curador (LLM-as-Curator). O modelo llama3.2:3b e utilizado como curador, recebendo prompts especializados para cada tarefa.

Vantagens da abordagem automatizada

Reprodutibilidade: Os mesmos prompts com temperature=0 produzem resultados consistentes
Escalabilidade: Permite classificar centenas de questoes sem intervencao manual
Padronizacao: Criterios aplicados uniformemente a todas as questoes

Pipeline de curadoria

Questao → Prompt de Dificuldade    → LLM (llama3.2:3b) → JSON {dificuldade, nivel}
                                                              ↓
Questao → Prompt de Subdominio     → LLM (llama3.2:3b) → JSON {subdominio_semantico}
                                                              ↓
Questao → Prompt de Corpus         → LLM (llama3.2:3b) → JSON {corpus_referencia}
                                                           ↓
                                                 curator_annotations.json

Implementacao

A funcao run_curator_tasks() em src/run_models.py processa todas as questoes (abertas e multipla escolha), gerando as anotacoes de curadoria e salvando em src/results/curator_annotations.json.

Detalhes

Nivel de dificuldade — Complexidade do raciocinio do LLM
Subdominio semantico — Area de especialidade juridica
Corpus de referencia — Ground truth (legislacao base)
Prompts — Templates utilizados