C002 — Claim Definition¶


Research	R0055 — RLHF Yes-Men Claims
Run	2026-04-01
Claim	C002

Claim as Received¶

AI models are trained using Reinforcement Learning from Human Feedback (RLHF), where human labelers evaluate model outputs and express preferences

Claim as Clarified¶

AI models are trained using Reinforcement Learning from Human Feedback (RLHF), where human labelers evaluate model outputs and express preferences

BLUF¶

This is an established fact. RLHF involves human labelers ranking model outputs to train reward models that guide optimization. Extensively documented since 2017.

Scope¶

Domain: AI alignment, sycophancy, enterprise AI
Timeframe: 2022-2026
Testability: Verifiable against published research and documentation

Assessment Summary¶

Probability: Almost certain (95-99%)

Confidence: High

Hypothesis outcome: H1 prevails — see assessment for details.

[Full assessment in assessment.md.]

Status¶

Field	Value
Date created	2026-04-01
Date completed	2026-04-01
Researcher profile	Phillip Moore
Prompt version	Unified Research Methodology v1
Revisit by	2026-10-01
Revisit trigger	Fundamental change in how RLHF is described in academic literature