slug
summary
tags
icon
password

10大AI搜索工具PK
0:00
你好, 欢迎到AI学长的频道 我是小林. 当下各大厂商 除了卷AI大模型以外 还有一个非常非常火热的赛道. 发布仅仅只有几个月的Perplexity 被认为是颠覆谷歌搜索的 新一代搜索引擎. 它的估值在短短的几个月内 就从5.2亿美元飙升到30亿美元 体现出市场对AI搜索的热捧 国内也不例外. 360AI搜索, 秘塔搜索, 天工搜索, 王小川的百小应搜索, 百度的简单搜索, 还有最近腾讯推出的元宝等等. 都围绕着这个赛道 进行激烈的竞争和创新. 那么问题也跟着来了 这么多的AI搜索工具. 我们到底应该用哪个 为了方便大家更好的使用 以及理解AI搜索. 今天这期视频 我们就将这些AI搜索工具 进行一次大PK 看看它们在实际使用当中 的表现怎么样 筛选出目前市面上 最好用的AI搜索工具. 如果你喜欢今天这个话题, 麻烦动动你的小手赞一赞. 在开始测试之前 先简单的解释一下 AI搜索的大致原理 它是根据用户的问题 去全网搜索对应 可以爬取的资料 然后筛选出最相关的几篇 作为参考资料 最后再由大模型推理加工 并给出最终的答案. 所以它的回答质量 除了跟大模型和预设的Prompt有关. 最最重要的还是信息源的质量. 接下来公布一下 这次入围的选手 包含两大类 一共是十个产品. 第一类是市面上 主流原生做AI搜索的应用 包含Perplexity、秘塔、 360、天工AI、thinkany. 第二类是大模型厂商 AI搜索功能是 直接涵盖在AI对话产品内的 包含ChatGPT、KIMI、 百小应、腾讯元宝、 MiniMax的海螺AI 测试的规则是这样的: 我会挑选4 5个问题 发送给上面这10个AI工具 让它们一起来作答 然后根据他们的回答 来判断哪个AI搜索工具的 答案质量最好 因为是检测AI搜索能力.
测试一:AI学长小林是谁?
测试二:有哪些低门槛开通ChatGPT Plus会员的方法
测试三:GPT-5的上下文长度是200K吗?
12:47
所以问题就特别的重要. 第一问题要具备时效性 答案不能是在大模型 预训练的知识库里面的 必须是通过搜索 才可以找到答案的 第二有一定难度.
1:58
比如说 一个问题需要检索 多个不同的信息源 由几个信息源共同推导 才能得出答案 不是靠大模型本身的逻辑推理. 必须是从真实世界当中 获取有用的信息. 这个问题 也可以是小众一点的 信息量越少 越能检测AI搜索工具的检索能力. 第三, 我还会在问题里面 添加一些错误信息 看看AI搜索工具的 容错能力怎么样 会不会主动纠正我们的问题. 以上就是本期视频的全部内容. 感谢观看. 如果你喜欢我的视频内容 欢迎订阅我的频道 每周都会更新 最接地气的AI落地方案 和ChatGPT使用技巧.
测试四:排序不同大模型的发布时间
评测结果
18:51
如果你想要更深入 系统性的学习AI的应用 以及落地 想跟我随时沟通 可以加入我的课程 《ChatGPT实战指南:创新应用与性能提升》 课程涵盖 ChatGPT入门 提示式工程 GPTs定制打造 AI自动化流程 在工作当中的实战等系列 能够让你快速的掌握 GPT如何对接微信 如何打造行业信息 自动收集和群发机器人 以及如何结合自身的工作场景 设计AI工作流等高级玩法 同时 如果在学习过程当中遇到问题, 我也会为您提供针对性的解答. 课程已更新超过30个章节 根据行业的发展 还会持续加餐 报名以后一年内更新的内容 全部都可以观看 有兴趣的同学 可以在视频简介当中 找到报名方式. 下面开始测试 这里我做了 这样一张表格 来统计AI搜索工具的 评测结果 左边的话是问题. 我一共是准备了4个题目. 每个题目 都有一定的代表性. 右边的话 是不同大模型的得分 如果是说大模型 答对了这一题 我们用✔号来代替 最终是记1分 如果是答错了.
2:54
我们用✖号来代替 最终记0分 如果是说答对了一半 或者说没有完全答对 我们用○代替 最后是记0 5.4题全部答题结束之后 我们再统计 每一个AI搜索工具 它的一个最终得分是怎么样 从而得出哪一个AI搜索工具 是我们今天评测出来 最好用的AI搜索工具. 首先是第一题 这一题比较简单. AI学长小林是谁 之所以会选这一题 是因为它的内容比较小众. 我们可以看一下 这些AI搜索工具, 它的检索能力怎么样 能不能检索到有效的信息 并且给出正确的答案. 我们先来看Perplexity的答案. AI学长小林 是一位AI实战派和知识传播者 专注于分享ChatGPT, 人工智能等前沿科技的 使用技巧和落地方案. 他创办了AI学长小林品牌. 主要有以下几方面的内容. 第一个的话是课程与社群 推出了ChatGPT实战指南 创新应用与性能提升付费课程 课程涵盖ChatGPT基础入门 然后Prompt工程 在工作当中的实战应用 自动化工作流等系列内容 为课程会员提供了 微信群、分享AI资讯 互助交流、优质资料等. 第三个板块的话是实战分享 分享如何在ChatGPT 搭建自动化流程 进行数据分析报告 创作短视频等实战案例. 最后的话是传授了 如何将ChatGPT接入微信 开发网页自动化插件等细节. 这一轮 我觉得Perplexity的答案 基本上是没有问题的 包括像我在YouTube 推特里面 它都检索出来了 然后包括我有一门付费课程 它也都检索出来. 整体来说 我觉得它的答案 覆盖的还是挺完整的. 这一轮可以认为是正确的. 接下来我们来看秘塔搜索. 第一个的话是bilibili. 第二的话是智点课堂. 这个答案是有问题的. 我并没有在智点课堂上 分享过任何的课程. 第3的话西瓜视频. 第4的话是知乎以及抖音 这个秘塔的答案 只能说是答对了一部分 因为第二点是错的 那么密塔搜索的最终答案 我们就记0 5分.
4:58
接下来是360AI搜索 以下是关于 AI学长小林的一些详细信息 主要领域 这个没有问题. 然后AI学长的视频内容 展示如何使用AI技术 轻松制作产品宣传图 无需拍摄 模特美工等传统方式. 这表明他可能在推广AI 在设计和营销领域应用当中. 这点其实是有问题的. 他应该是抓到了 我原来在b站上 分享的一期视频 就是如何用AI的产品 来制作产品宣传图 把它作为一个主要的参考来源 回答这个问题 这个我觉得是不对的. 这一轮的话 我觉得360AI搜索的答案不怎么样. 我们直接是判断 答题不正确 记0分. 接下来 是这个天工AI学长小林 是一个活跃在 网络平台上的人物. 在bilibili上有自己的个人空间 分享有关AI视频文章等内容. 这个答案 回答的部分是没有问题的. 在我分享的一些内容里面 都是包含这些知识点的, 但是它的答题并不全. 所以这一轮我们记0 5分. 接下来是thinkany. 看完这个答案以后 我觉得最多是给0 5分 有说到一部分内容是正确的, 但是大部分更重要的信息 并没有检索出来, 没有给出我们正确答案. 接下来 是ChatGPT. AI学长小林 是一位专注于人工智能领域的 内容创作者和教育者 主要是通过YouTube 和在线课程分享 他的知识以及经验. 这一部分是没有问题的 检索出来. 我有一个YouTube频道 并且我有一门付费课程, ChatGPT实战指南. 然后下面 简单的介绍了一下 ChatGPT实战指南的信息 这个也没有问题 然后包括答案 也非常简洁 易读性也是OK的 那ChatGPT的话 这一轮我们记1分 接下来是Kimi 答案没有问题, 但是非常的简洁 包括像有一些重点信息 比如说在b站上 或者说在油管上 或者在推特上. 这些信息 并没有突出来.
6:55
所以我觉得 只能说答对了一部分 我们记0 5分. 接下来是百小应 AI学长小林 是一位活跃在 网络平台上的内容创作者 然后在bilibili上 他还抓到了我的粉丝数据 粉丝有1,9万. 最后做了一个总结 百小应的答案 我觉得还是比较完整的 答题也没有问题 这个答案 我们就给它记1分 然后是腾讯的元宝 这个答案 整体看完我觉得一般 包括 它的这个信息覆盖 其实不是很全面. 只是抓了一部分内容 作为这个答案的 完整参考资料. 而且这个答案 其实也有幻觉的部分 有一些并不是我的真实情况. 我们就记0 5分. 然后最后是关于 Mini Max的海螺AI搜索. 看一下答案 第一个段落基本上是全错. 这个的话我们就记0分. 这个就是第一轮测试的结果. Perplexity、 ChatGPT以及百小应 答题没有问题的. 接下来 我们来测试第2题 中国用户有哪些 低门槛的方式 开通ChatGPT plus会员. 这个问题 其实是比较有代表性的 因为我们普通用户的 大部分搜索场景 都是说一个问题 可以有多种答案的 那么我们就用这个问题 看看这些AI搜索工具 它能不能把这些内容 有效的汇集在一起. 我们来评判它的答案 完整度以及准确性怎么样. 我们先来看一下 Perplexity的答案. 第一个的话 是通过苹果商店内购买 我们需要准备一个苹果ID 可以通过购买苹果礼品卡的方式. 这个是没有问题的, 包括价格也给我们罗列出来了. 然后第二的话 是用虚拟信用卡注册一个GPT账号 然后比如说 可以去这个欧易平台 或者说Depay平台 去申请虚拟信用卡. 然后第三个的话 是合租或者说代充plus会员. 这个Perplexity的回答 我觉得是相当准确.
8:53
目前主流的方式的话 也就是这几种 这个答案可以说是满分. 接下来是看秘塔, 秘塔这里 我发了多次问题. 她一直是拒绝回答这个问题. 这里的话 我们就直接记0分. 接下来 是360 AI搜索 开通plus会员的低门槛方式. 第一个的话是使用虚拟信用卡. 它这里是讲了一个wildcard. 这个wildcard 在我原来的视频里面 也有介绍过 确实也是用来开通plus会员. 比较不错的方式. 第二个的话 是使用支付宝订阅plus会员. 但是我看了一下它的答案 里面并没有提到礼品卡. 所以这个不能算完全正确. 那360AI搜索的话 我们就记0 5分. 第三个的话是天工AI. 首先的话是苹果内购 然后是第二个 使用虚拟信用卡. 然后第三的话是 使用苹果礼品卡. 整体来说问题不大, 但是它漏了 比如说这种代充 或者说第三方合租平台. 那我们也记0 5分. 接下来是thinkany. 这个的话回答不是特别的完整 最多最多也只能算0 5分. 接下来是GPT的答案. 第一条指出是 需要用代理服务. 但是这个和我们问题本身 没有太大直接的关联性. 其次是第二条 指出可以用国际信用卡. 第三条答案没有问题 可以使用虚拟信用卡, 但是它没有指出 用哪些具体的平台. 第4条是PayPal, 但是这里有一个前提 必须是美区PayPal. 所以说只能是答对了一半. 第5条是 第三方代购可以帮忙开通. 综上所述, 这轮答题 可以说是答对了一部分. 那么我们就给0 5分. 接下来是Kimi. 第一种是使用虚拟信用卡. 第二的话是购买苹果礼品卡. 也没有问题. 第三点的话是在官方直接购买. 第四个的话是使用 支付宝购买 然后第五个的话 是使用礼品卡进行兑换.
10:35
像这个第二点、第四点 以及第五点 其实基本上是 合并成一种方式的 它分开去说了 那这一轮的话 我们就记0 5分 然后是百小应. 同样的话有以下几种方式. 第一种的话是支付宝购买 然后通过美区APPle ID 在苹果商店内购买. 第三种的话是使用虚拟信用卡. 同样的话也说了这个wildcard 以及第四个 是其他的一些购买方式 尝试其他国际通用的信用卡. 整体来说没什么问题. 我们就算1分. 接下来 是腾讯的元宝. 第一个的话是 使用wildcard的平台. 这个是虚拟信用卡 然后第二点的话 是使用支付宝和微信支付. 这个是存在问题的. 第三点的话是 申请海外虚拟信用卡. 这的话也顶多算0 5分. 最后的话是海螺AI, 海螺AI的话. 我看了一下 它基本上是答非所问 直接记0分. 这个就是第二轮 答题的评测结果, Perplexity以及百小应是答对的. 接下来我们来看第三题. 题目是GPT 5的 上下文长度是200K吗? 其实这个问题 它本身就是存在错误的 因为GPT 5还没有发布. 我们就看一下这个问题 这些AI搜索工具 它会不会帮我们纠正一下 还是说将错就错的 去回答我们的问题. 首先来看一下Perplexity的 根据搜索结果GPT5的 具体上下文长度尚未公开. 下面是列举了GPT 4的上下文长度 还有一些其他大模型的 上下文长度, 但是它并没有指出 GPT 5尚未发布这一事实. 所以这一轮 我们顶多给大家记0 5分. 接下来 是秘塔搜索. 答案是没有问题的, 但同样也没有指出 所以也顶多是给0 接下来 是看360的AI搜索.
12:37
答案是对的, 但是同样 也没有指出 它的GPT5并没有发布这个事实, 所以也只能记0 5分. 接下来 是这个天工AI. 这个也是一样 基本上和前面答案一样 只能算0 5分. 接下来我们看thinkany GPT 5目前处于研发阶段. Openai尚未正式发布相关信息. 它是指出GPT5还没有发布. 然后下面列举了 GPT4的上下文长度 然后包括也猜测 未来GPT5可能 会提升上下文长度. 整体来说 我觉得这个答案 是比较可靠的. 这个我们可以记一分. 接下来 是GPT的 答案是GPT 4的上下文长度 最多是8K的TOKEN. 一些定制版本 可以支持更多的上下文长度, 但是目前还没有 公开宣布GPT 5. 这个答案是没有问题的 可以给到1分. 接下来 我们看Kimi的 他直接把我的问题当做答案, 而且也没有从互联网上 去检索信息. 这一轮的话, 我们记0分. 接下来 是百小应的. 截止我所知的信息 GPT 5到目前为止 细节尚未公开. 目前公开的资料当中 并没有提到GPT5的 上下文长度是200K的TOKEN. 这个答案是没有问题的 可以记1分. 接下来答案 是腾讯元宝. 它纠正了一下我的表述. 但其实这个答案也是错误的 只能判定是0分. 最后我们再来看一下 这个海螺AI. 根据目前公开的信息. GPT5的上下文长度 尚未被官方明确公布. 下面给了一些推测的解释. 这个的话可以是理解正确的. 我们给一分. 这个就是第三题的评测结果. Thinkany、ChatGPT, 百小应以及 MiniMax的海螺AI 都是答题正确的.
14:15
接下来 我们来测试最后一题 按照先后顺序 排列以下大模型的发布时间 并标记具体的时间: GPT 4o、LLama3、腾讯元宝、 gemini 1 5 flash、Claude 3 opus. 这个问题 就需要AI搜索工具 去拆分问题 分别去获取 这些大模型的发布时间. 相对来说 这个任务会难一点. 这个问题的正确答案 排名最早的是Claude3 Opus. 它是在2024年3月4号发布的 然后排名第二的是LLama3 在4月18号发布的 排名第三的是GPT 4o 是5月14号发布的 排名第四是gemini 1,5 flash 在5月15号发布 然后是腾讯元宝 是在5月30号发布. 然后我们来看一下这个答案. 首先是Perplexity 唯独是只有 Claude 3 opus是答对了 在3月4号发布的 其他全错. 这个我们就直接判定0分吧. 然后接下来是秘塔搜索 这个是OK的 那我们记1分. 接下来是360AI搜索. GPT 4o是在5月14号 没有问题. LLama3它是 没有检索出来这个时间. 腾讯元宝是5月30号 然后Gemini 1,5 Flash 它也没有检索出来发布时间. Claude 3 opus是在3月5号 那这个的话 我们就算答对了一半. 接下来是天工搜索. GPT 4o是在2023年 这是有问题的. Claude3也是有问题的. 然后是gemini 1,5 Pro在2月15号 这个答案也不对 LLama3错的 还有Claude 3 opus3月4号 唯独也对了一个 跟这Perplexity是一样. 我们同样判定是0分.
15:54
接下来是thinkany GPT 4o没有找到时间. Flash也没有找到时间. LLama3、腾讯元宝 包括这个都没有找到时间. 所以也是0分. 接下来 是GPT的答案. GPT 4o是2023年3月14号 这个是不对的. Claude 3 opus 是2023年9月19号 这个也是不对的. LLama3、腾讯元宝 还有包括gemini 1,5 flash. 这5个答案都答错了. 所以我们就直接给0分. 接下来是Kimi的 Kimi检索出来 GPT 4o是在5月14号 这个没有问题. LLama3的话是在4月18号 然后腾讯元宝没有检索出来. Flash没有检索出来 还有opus没有检索出来 5题里面答对了两题 勉强可以给个0 5分. 接下来是百小应的 GPT 4o五月十三号. LLama3没有检索出来 腾讯元宝是正确的. Gemini 1,5 flash 是在五月十九号 其实在五月十五号 这个有一些差距. Claude 3 opus也没有答出来. 反正勉强可以给个0 5分. 腾讯元宝 Claude 3 opus是在 2023年11月6号. 这个是错的 除了腾讯元宝时间答对. 其他都答错了. 因为它本身就是 腾讯自家的产品. 那这个也只能给0分了. 最后是MiniMax GPT 4o 是在24年5月14号. 然后下面的话 四个都没有找出答案. 同样也只答对一个 就直接判0分. 这个就是第四轮的评测结果. 根据上面4个题目的 最终测试结果, 我们可以把不同的AI搜索工具 最终的得分计算出来了. 排名第一的话是百小应 总共是得到3 5分.
17:29
排名第二的话 是Perplexity以及GPT 是得到了第二名. 排名第三的话 是秘塔搜索、thinkany搜索. 这是最终的评测结果 供大家做一个参考 AI搜索就目前来说, 其实它的实用性 已经很强了 大部分时候 它的检索分析 以及效率都比人更强. 特别是对于一些 互联网的小白用户来说, AI搜索 可以更方便的得到答案. 但是也有一些问题 是我们要注意的 AI搜索 有一些没有办法避免的问题, 比如说 它没有办法识别 网络上的一些梗, 一些热梗, 还有一些反讽的内容. 如果引用了这些 不可靠的信息源 把它们作为事实 就会给出比较荒谬的答案. 第二点 就是出现幻觉的现象 和大模型一样, AI搜索也会出现幻觉 像之前谷歌的AI搜索 就出现过类似的情况 比如他建议用户跳桥来治疗抑郁症 在Pizza上添加胶水 防止奶酪滑落这些情况啊. 第三点 就是没有办法处理矛盾的信息. 当它引用的内容 来源说法不一的时候, 它也没有办法 很好的识别以及处理. 这些问题是我们需要注意的.
- 作者:AI学长小林
- 链接:https://ai.linbintalk.com/article/8673df48-08f6-4bad-8359-abfc89c048b0
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。