Método
Pipeline
- Rasterização: PDF do Google Books (cópia da edição de Genebra 1629) → 956 PNGs em 200 DPI
- Tradução trilíngue: cada PNG enviado a Claude Opus 4.7 com prompt customizado, gerando JSON estruturado com latim transcrito + tradução pt + tradução en + tabelas + figuras + eventos astronômicos extraídos + flags de incerteza + notas do tradutor
- QA estrutural: validação automática de razão pt/latim, presença de seções, integridade JSON. 96.3% das páginas passaram sem flags; as restantes foram inspecionadas manualmente (em sua maioria, falsos positivos: páginas tabulares, em árabe ou siríaco, ou índices remissivos).
- Extração estruturada: 1.643 eventos astronômicos catalogados em formato auditável (tipo, data citada, fonte antiga, localização)
- Validação astronômica: cruzamento com NASA Five Millennium Canon of Solar Eclipses e Lunar Eclipses (Espenak/Meeus). Resultado: 30 MATCH_DATE (data exata confirmada), 10 MATCH_MONTH, 29 MATCH_YEAR_ONLY. Ver Núcleo Sólido com 8 casos curados narrativamente.
- Publicação estática: HTML+CSS simples, GitHub Pages, custo zero
Modelo de IA
Claude Opus 4.7 (Anthropic), versão de abril de 2026. Janela de 8.000 tokens de saída por página. O prompt incluiu regras explícitas para evitar erros sistemáticos detectados em rodada anterior com Sonnet (preservar advérbios latinos, conferir números duas vezes, manter transliteração grega politônica completa, declarar incerteza em flags).
Limitações conhecidas
- Páginas em árabe (~p.798, p.802), siríaco (parcial) e hebraico (parcial) têm cobertura limitada
- Tabelas densas podem ter erros em valores numéricos individuais que requerem validação manual
- Citações gregas em ligaduras tipográficas de 1629 podem estar normalizadas para grego clássico padrão (declarado em flags)
- Conversões de calendário antigo (Olimpíada, era de Augusto, era de Nabonassar) usam tabelas modernas consensuais — uma divergência detectada na validação pode refletir erro da nossa conversão, não de Scaliger
Reprodutibilidade
Todos os scripts de geração estão no repositório GitHub. Os JSONs estruturados de cada página, os datasets de eventos astronômicos, e os resultados da validação estão disponíveis em formato JSONL e CSV. A validação astronômica é totalmente reproduzível com Python + Skyfield + canons NASA.