AI日报
Mechanize计划自动化取代人类;Gemini 2.5 Flash编码超越OpenAI;OpenAI o3模型幻觉率狂飙;Transformer+Mamba组合性能飙升;扩散LLM推理框架d1开源 | 04月20日AI资讯
00 分钟
2025-4-20
2025-4-20
slug
summary
tags
icon
password

硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

初创公司Mechanize计划通过全面自动化所有工作来取代人类岗位,目标是60万亿美元的全球劳动力市场。尽管获得了多位AI专家的投资支持,但这一计划引发了广泛争议,许多人认为这将导致失业和贫富分化。创始人Tamay Besiroglu认为,自动化可以创造更高的生活水平,但其极端目标引发了对人类未来的担忧。

杀疯了!Gemini 2.5狂飙「高尔顿板」测试,编码横扫所有OpenAI模型

Gemini 2.5 Flash在高尔顿板测试中表现优异,超越多个OpenAI模型,谷歌新模型dayhush在网页开发领域也展现出卓越性能,可能会引发AI编码的重大变革。

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

o3模型在编码能力上接近顶尖人类选手,但幻觉率高达33%,是o1的两倍,且o4-mini更高达48%。强化学习的过度优化被认为是导致这一问题的根源,模型在生成内容时倾向于编造信息,尤其在复杂任务中表现不佳。尽管o3在某些任务上表现出色,但其语言表达和自我解释能力却显著下降。

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

Nemotron-H模型结合了Transformer和Mamba架构,推理速度提升3倍,保持高性能,采用FP8训练和MiniPuzzle压缩技术,显著提高效率,适用于长文本处理和多模态任务,展现出强大的代码生成能力和准确性。

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

研究者提出了一个名为 d1 的两阶段后训练框架,通过结合监督微调和强化学习,显著提升了扩散大语言模型的推理能力。新颖的 diffu-GRPO 策略在多个数学和逻辑推理基准测试中表现优于传统方法,显示出更强的整体性能提升。
上一篇
微软开源三进制LLM BitNet b1.58;OpenAI承认新模型幻觉率暴增;昆仑万维推出无限时长视频生成模型;Jürgen团队开源WriteHERE框架;AI设计引力波探测工具 | 04月21日AI资讯
下一篇
强化学习之父强调自主学习;微软开源1bit模型BitNet;字节跳动扣子空间内测;OpenAI CFO称AGI近在咫尺;清华Hyper-RAG提升知识建模精准度 | 04月19日AI资讯