SRC04¶

DeepSeek R1 paper -- production RLVR implementation

Source¶

Field	Value
Title	DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Publisher	arXiv / DeepSeek
Author(s)	DeepSeek AI team
Date	2025-01
URL	https://arxiv.org/pdf/2501.12948
Type	Research paper

Dimension	Rationale
Reliability	Seminal RLVR paper with detailed methodology; DeepSeek R1 is the most prominent production RLVR implementation
Relevance	Demonstrates RLVR at production scale but does not directly address sycophancy
Bias flags	DeepSeek has incentive to present RLVR positively. Some concerns about selective reporting of failure cases

Evidence ID	Summary
SRC04-E01	DeepSeek R1 production RLVR implementation details and indirect sycophancy implications