Pular para o conteúdo

Harness, evals e registries

O Harness reúne controles que limitam e avaliam execução. Ele não é sinônimo de teste unitário nem de um único produto.

  • input validation;
  • context and data policy;
  • tool safety;
  • prompt injection and adversarial behavior;
  • output schema and factuality;
  • authority and action envelope;
  • cost and latency;
  • privacy and security;
  • trace completeness;
  • rollback and recovery.

Evals precisam declarar dataset/case, method, expected behavior, threshold, limitations, owner, version e evidence. Golden evals e adversarial details podem ser internos; o método público descreve categorias e critérios.

O componente avaliado não deve ser o único a decidir sua aprovação. Assurance independente é proporcional à materialidade.

Registries públicos conceituais:

  • Practice Registry;
  • Artifact Registry;
  • Capability Registry;
  • Module/Pack Registry;
  • Policy Registry;
  • Eval Registry;
  • Runtime Profile Registry.

Cada entry inclui ID, version, status, owner, compatibility, evidence, visibility e deprecation.

O Resolver consulta requirements e registry para produzir Bill of Capabilities:

requirement
→ matching releases
→ fit/risk/cost comparison
→ REUSE | CONFIGURE | INTEGRATE | BUILD | DEFER

Promotion exige Gate, evidence, status truthfulness e publication boundary. Release precisa de rollback/deprecation path. A adoção em um tenant não prova automaticamente reuso horizontal.