Methodology

These public-facing capability pillars are plain-language summaries built on a deeper coverage map spanning reasoning, learning, truthfulness, self-monitoring, social competence, multimodal understanding, safety, and robustness. Each granular question is intended to be backable by benchmarks, controlled studies, audits, red-team exercises, longitudinal trials, or expert-blind review.

Not metLow confidenceHigh-stakes use

AI can handle sensitive and high-stakes contexts responsibly

An AI system can protect private information, operate inside regulated constraints, remain accurate where harm is costly, and improve outcomes without raising risk.

Progress10%

Updated Mar 15, 2026

Evidence items 5

Sub-questions 5