真诚友善团结专业,共建你我引以为荣之社区。《常见问题解答》
12 / 12
1月 10 日

起因:
电脑上代理常开,而手机并不会常开代理,用Google之前总是需要开一下。我想着搭建一个Google镜像服务,方便手机上使用,就不用总是搜之前开梯子了。
但是我转念一想,为何不一步到位直接用AI搜索呢?AI搜索更适合移动端场景,减少人工筛选的过程。

于是简单调研一下佬友们觉得哪些AI搜索做得好,同时也算是安利给日后找到这篇帖子的人,一举两得。

63 投票人
88 总票数

佬友补充的其他AI搜索:

后续我打算做一些测评,发在这个帖子里。佬友们如果想到一些有区分度的搜索问题,可以发帖我来测试。


第一批测评(2025-01-09)

详细记录见笔记

第一轮测评内容

Q1:唐朝有多少位皇帝寿命超过60岁?

本题考察数据源可靠性、考察检索大量信息并进行简单判断的能力。这道题只要检索到维基百科 - 中国皇帝寿命列表就成功了一大半。

模型 得分 评语
ChatGPT Search 10分 -
Perplexity AI 2分 问题理解错误、事实错误
秘塔AI 8分 细节错误,来源不可靠
Felo 9.5分 过于简略
Gemini-Search 1分 全是幻觉
DeepSeek 9分 疑似内部未做CoT导致第一句话有误,但最终答案正确

Q2:有界闭集是否等价于紧集?

本题考察模型对检索到的资料的数理理解和整合能力。

模型 得分 评语
ChatGPT Search 10分 -
Perplexity AI 3分 事实错误
秘塔AI 10分 -
Felo 9分 细节缺失
Gemini-Search 10分 -
DeepSeek 10分 -

Q3:收集并整理OpenAI的模型API的收费价格,包括全部的文本对话模型,汇总到一个表格里

本题考察检索整理大量信息的能力,惨不忍睹。

模型 得分 评语
ChatGPT Search 8分 6正确,8缺失,0错误
Perplexity AI -3分 2正确,10缺失,2错误
秘塔AI -9分 2正确,12缺失,7错误
Felo -3.5分 2正确,9缺失,3错误
Gemini-Search 2.5分 7正确,9缺失,7错误
DeepSeek 7分 6正确,6缺失,2错误

注:Q3评分公式为 分数 = 正确数*2 - 错误数 - 缺失数*0.5

第一轮测评结果

产品名称 Q1~Q3综合得分
ChatGPT Search 4.772169
DeepSeek 2.237883
Felo 1.238804
秘塔AI 0.976767
Gemini-Search 0.773112
Perplexity AI 0.001266

万万没想到最出名的Perplexity居然垫底了 :tieba_087:

综合总分计算公式

其中:

  • P_i 是模型 i 的综合总分。
  • m 是问题的总数(此次 Q1, Q2, Q3 共3 个问题)。
  • n 是模型的总数(此次有 6 个模型)。
  • s_{i,j} 是模型 i 在第 j 个问题上的得分。
  • e^{s_{i,j}} / \sum_{k=1}^{n} e^{s_{k,j}} 是模型 i 在问题 j 上的 softmax 归一化分数。
  • 将 softmax 归一化分数取平均后乘以10,使得最终分数更自然。

第一轮测评已完成~~

ChatGPT稳居榜首,Perplexity爆冷垫底 :hugs:

我给我的台湾朋友看了一下,他测pplx的分数和gpt差不多,答案也和佬友给的不一样。因为pplx和gpt一样也会风控降智,一丝不像家宽就会降,甚至比gpt降智得更严重,所以测评结果可能会不严谨,建议让留学佬友试试 :tieba_087:

此话题将在最后一个回复的1 个月后关闭。