Lazy loaded image
AI日报
02月11日AI资讯 | 阿里发布Qwen-Image-2.0图像生成模型;中国团队CodeBrain-1获Terminal-Bench全球第二;清华千问提出SiameseNorm新架构;Anthropic发布2026编程革命趋势报告;北大开源细粒度视觉识别大模型
字数 1233阅读时长 4 分钟
2026-2-11
2026-2-11
slug
summary
tags
icon
password

中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了

Qwen-Image-2.0是阿里新发布的图像生成与编辑模型,支持1K token的超长文本指令和复杂指令理解,中文渲染能力显著提升。实测中,该模型在生成漫画、美食信息图和城市景观等方面表现出色,能够准确理解复杂结构并保持角色一致性。同时,具备强大的图片编辑能力,用户可以通过简单指令进行二次创作,整体表现超出预期,适合高频使用场景。

比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二!

中国团队Feeling AI的CodeBrain-1在Terminal-Bench 2.0评测中以72.9%的成绩跻身全球第二,仅次于OpenAI的Simple Codex。CodeBrain-1通过优化上下文检索和错误反馈机制,提升了在真实终端环境下的编码能力,展现出较高的任务执行效率和成本效益。该模型不仅关注代码生成,还能动态调整计划与策略,显示出在AI领域的竞争力和创新潜力。

清华联手千问重塑归一化范式,让 Transformer 回归「深度」学习

清华大学与千问团队提出了SiameseNorm架构,旨在解决Pre-Norm与Post-Norm之间的训练稳定性与深度表达能力的矛盾。该架构通过双流设计,分别利用Pre-Norm的稳定性和Post-Norm的表征潜力,实现了高效的参数共享和优化。实验结果显示,SiameseNorm在多个基准测试中表现优异,尤其在逻辑推理和算术任务上显著提升了模型的有效深度和准确率,指明了大模型研发的新方向。

Anthropic最新2026趋势报告:人类最大一次编程革命势不可挡

2026年,软件开发将经历重大变革,程序员不再单纯编写代码,而是转变为指挥AI智能体的角色。AI将能够独立完成复杂任务,多个智能体将协同工作,提升开发效率。非技术人员也能参与开发,编码能力将民主化,推动各个领域的应用。同时,安全性将得到增强,但攻击能力也会随之提升,组织需重视安全架构的嵌入。未来的目标是让人类在关键决策中发挥作用,而非完全取代人类。

超越CLIP!北大开源细粒度视觉识别大模型,每类识别训练仅需4张图像

北京大学的Fine-R1模型在细粒度视觉识别任务中表现优异,仅需4张图像进行训练,超越了CLIP和SigLIP等模型。该模型通过思维链推理和三元组增强策略,提升了对未见子类别的识别能力,展示了生成式多模态大模型在细粒度任务中的潜力。实验结果表明,Fine-R1在多个数据集上均实现了高准确率,证明了其有效性。

首个测试时共进化合成框架TTCS:在「左右互搏」中突破推理瓶颈

TTCS(测试时课程合成框架)通过生成器与求解器的共进化博弈,自动合成适应模型能力边界的课程数据,显著提升了数学推理能力。在多个权威数学基准测试中,TTCS表现优异,特别是在高难度的AIME竞赛题上,成功解决了测试时训练中的数据稀缺和难度断层问题,为未来自进化智能体的发展奠定了基础。

里程碑时刻!100B扩散语言模型跑出892 Tokens /秒,AI的另一条路走通了

LLaDA2.1扩散语言模型在HuggingFace上线,达到了892 Tokens/秒的峰值速度,标志着这一研究方向的重大突破。通过可纠错编辑机制和双模式设计,模型在生成过程中实现了快速草拟与智能编辑,解决了传统自回归模型的局限性。该模型不仅在复杂编程任务中表现出色,还展示了扩散语言模型在实际应用中的可行性,打破了以往对模型速度与质量的固有矛盾。
上一篇
Vozo-根据文案自动配音并编辑视频
下一篇
02月10日AI资讯 | 清华MoPPS框架加速RL训练1.8倍;理想汽车HVO框架让7B模型比肩GPT-4;OpenRouter匿名模型Pony Alpha引发全球猜测;腾讯混元推出0.3B参数2Bit量化模型;阿里达摩院开源RynnBrain具身大脑基模