大规模强化学习技术原理与大模型技术发展研判刘知远CCF·2025DeepSeek-R1训练流程DeepSeek-V3规则驱动的准确率奖励DeepSeek-R1-Zero强化基座模型大规模强化学习格式奖励强推理模型泛化阶段一:增强推理过程可读性DeepSeek-R1DeepSeek-V3R1-Zero生成面向推理的准确率奖励强推理模型基座模型冷启动SFT自动/人工改写强化学习可读性奖励阶段二:增强面向通用指令的推理能力全场景CoT阶段一模型生全场景规则驱动的奖励增强SFT成推理SFT数据强化学习奖励模型驱动的奖励通用SFT数据DeepSeek-R1重要意义ChatGPTo1/o3首次Llama提出强推理模型让大模型领域再次迎来“ChatGPT时刻”DeepSeek-R1开复源现“有限算力+算法创新”发展模式是突破算力卡脖子限制的关键•未来应聚焦“高效”围绕高效模型架构、高效强化学习、高效算力...
发表评论取消回复