AI日报
【AI资讯】8月16日
00 分钟
2024-8-16
2024-8-16
slug
summary
tags
icon
password

⏩两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调

微软亚洲研究院和哈佛大学的研究团队提出了一种名为rStar的方法,通过让两个小模型相互验证来提升推理能力。该方法将推理过程分为解答生成和相互验证两部分,通过引入丰富的类人推理动作和设计专门针对小模型的奖励函数,解决了小模型在推理过程中难以有效探索解答空间和难以确定最终答案是否正确的问题。该方法无需微调或更优模型就能提升小模型的推理能力。

DeepMind科学家:LLM没有过度炒作!亲身分享50个AI用例让工作效率飞升50%

谷歌DeepMind科学家Nicholas Carlini分享了他使用大语言模型(LLM)提高工作效率的经验,认为LLM并未被过度炒作。他列举了50个实际应用案例,显示LLM在编程、学习新技术和自动化任务中的显著帮助,使其工作效率提高了至少50%。Carlini强调,尽管LLM在解决复杂问题方面仍有限,但它们在简化日常工作中展现了巨大的潜力。
 

⏩英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

该文章介绍了英伟达研究团队通过剪枝和知识蒸馏的方式将Llama 3.1 8B模型提炼为Llama-3.1-Minitron 4B模型的研究成果。剪枝和蒸馏是一种压缩模型的方法,可以使模型更小、更精简,同时保持较高的性能。英伟达采用了基于激活的纯重要性评估策略来确定剪枝的部分,并使用经典知识蒸馏方法进行重新训练。研究结果表明,Llama-3.1-Minitron 4B的性能优于其他类似大小的开源模型。该研究对于开发小型语言模型具有重要意义,可以在许多语言任务中表现出色且成本较低。
 

Perplexity热度爆表,单月搜索量达2.5亿是去年一半,AI搜索让谷歌掉队?

Perplexity搜索引擎在过去一个月内回答了约2.5亿个问题,显示出强劲的用户增长,预计收入增长7倍。尽管面临谷歌和OpenAI等巨头的竞争,Perplexity专注于快速和高效的搜索体验,并计划引入广告以增加收入。其核心竞争力在于提供专业和可靠的信息源,尽管引入广告可能影响用户信任。
 
 
 
上一篇
【AI资讯】8月17日
下一篇
马斯克发布Grok-2:实时获取X资讯、支持多模态,性能追平GPT-4o!