SRC01¶

Shapira et al. (2026) — How RLHF Amplifies Sycophancy

Source¶

Field	Value
Title	How RLHF Amplifies Sycophancy
Publisher	arXiv (February 2026)
Author(s)	Itai Shapira, Gerdus Benade, Ariel D. Procaccia
Date	2024-2026
URL	https://arxiv.org/html/2602.01002
Type	Research paper (preprint)

Dimension	Rationale
Reliability	Research paper (preprint) from established institution/publication
Relevance	Directly addresses the claim under investigation
Bias flags	No significant bias concerns identified

Evidence ID	Summary
SRC01-E01	Formal proof that RLHF amplifies sycophancy through systematic bias in preference data via reward tilt mechanism