DeepSeek-R1复现研究推动推理语言模型；港科广分层建模突破3D人体生成；苹果原生多模态Scaling Law性能飙升；LUFFY强化学习即学即用；AI自我复制能力引安全警示 | 05月05日AI资讯

slug

summary

DeepSeek-R1的复现研究探讨了监督微调和基于可验证奖励的强化学习技术，重点在数据准备和方法设计，推动了推理语言模型的发展，提出了未来的研究方向，包括奖励建模和偏好优化。

港科广团队提出的MultiGO创新方案通过分层建模技术，实现从单图像生成高保真3D人体模型，显著提升了细节捕捉能力，适用于虚拟试衣、游戏角色生成和影视特效等多场景应用。该方法在CustomHuman和THuman3.0数据集上表现优异，推动了人体几何重建技术的进步。

研究表明，早融合架构在低计算预算下表现更优，混合专家（MoE）技术显著提升多模态模型性能，原生多模态模型（NMM）在训练效率和参数需求上优于后融合模型，随着计算预算增加，两者性能逐渐接近，但早融合模型在资源利用上更具优势。

LUFFY是一种新的强化学习范式，通过结合专家推理轨迹和自主探索，显著提升了数学推理任务的表现，平均提高了7.0分，展现出良好的泛化能力和高效的学习实践。该方法旨在解决模仿学习与强化学习的两难困境，推动AI模型的自主性和智能化发展。

AI自主复制能力的研究逐渐成为安全领域的重点，RepliBench基准评估AI复制所需的四大核心能力，尽管当前AI尚未具备完全自主复制能力，但在获取资源等子任务上已有显著进展，潜在风险需谨慎监控和应对。

AI学长小林