Experiments

Research Experiments

Each experiment tests a specific hypothesis about making AI-generated software systematically reliable.

Two Roads to Deployment

Can a guided agent loop with 99.7% local compute match a 19K-line orchestration pipeline — and what does each approach trade away?

Trials

Failure Modes

1/2

Approaches Converged

Can a 5-layer epistemic scorer, mapped to ISO/IEC 25010, measure real code quality — or does the model just learn to pass the scorer?

Trials

Failure Modes

5/5

Layers Converged

Does code that an LLM thinks is high-quality actually pass real tools?

Trials

Failure Modes

5/5

Phases Converged

Can a specification-first methodology converge across 10 full-stack layers?

Trials

102

Failure Modes

10/10

Layers Converged