大模型PK ChatGPT VS Claude VS Gemini

ChatGPTPlus/Pro升级使用教程

Posted by aicygg888 on December 25, 2024

前言

数据就是最好的描述和证明,接下来,我们综合看看OpenAI和Google家的Gemini的模型对比结果如何

综合评分如下:

img

从图上可以看到,12月22号之前还是Gemini的模型占领第一,OpenAI的ChatGPT-4o紧跟其后,总比比分稍逊Gemini。

PS 因为笔者平时使用最多的是ChatGPT和Claude,需要升级ChatGPTPlus/Pro会员的童鞋可以参考:ChatGPT订阅升级教程

接下来我们再看看各个模型的稳定性对比

img

上图图标说明:模型强度的置信区间(Confidence Interval, CI)指的是模型评分的统计范围,用于表明在重复测评中,模型真实表现可能落在哪个区间。具体来说:

上下限范围:置信区间通常以“±某值”表示,比如95%置信区间为+5.84 / -6.00,表示实际分数有95%的概率落在这个范围内。

用途:它反映了模型评分的稳定性。如果置信区间较窄,说明评分更稳定、误差更小;较宽则表明可能存在更大变动。

可以从上图看到ChatGPT-4o的稳定性比Gemini稍好。

接下来我们看看各模型对比其它模型的胜率百分比

img

胜率最高的是Gemini其次再是ChatGPT-4o;

我们再来看看Web能力各个模型得分大比拼

img

接着我就在竞技场给大家试了试Claude VS Gemini模型web能力

Gemini结果展示

界面还有括号!!!

img

Claude Haiku:

看着还行哈!

img

总体是Claude更好,但是思考的时间比Gemini稍稍长点,但是鉴于Gemini不尽人意的结果,时间长点还是可以接受的。

img

大家觉得两模型表现如何,以后想给客户展示原型就方便了很多啊!

小提示:

PS:如果你需要开通自己的ChatGPT Plus、Claude Pro的个人独享账号可以参考教程:使用支付方式订阅开通ChatGPT Plus、Claude Pro教程

欢迎加微信

img

公众号也可以哦

img