半年多过去了,chatgpt的排名快「垫底」了 -k8体育

今天,笔者无意中刷到一张图片。据该图片显示,openai的gpt-4在11个大模型中(*名序号为0),已经排到了最后。还有网友配上了“gpt4:我的冤屈怎么诉?”的字样。这不禁让人好奇,今年年初,chatgpt爆火以后,其他公司才开始提大模型的概念。这才半年多,gpt就已经“垫底”了?于是,笔者想看

今天,笔者无意中刷到一张图片。

据该图片显示,的gpt-4在11个大模型中(*名序号为0),已经排到了最后。还有网友配上了“gpt4:我的冤屈怎么诉?”的字样。

这不禁让人好奇,今年年初,chatgpt爆火以后,其他公司才开始提大模型的概念。

这才半年多,gpt就已经“垫底”了?

于是,笔者想看看gpt排名到底咋样了。

01 测试时间不同,测试团队不同,gpt-4排第十一

从前文中图片上显示的信息来看,这个排名是出自c-eval榜单。

c-eval榜单,全称c-eval全球大模型综合性考试测试榜,是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。

据悉,该套件覆盖人文、社科、理工、其他专业四个大方向,包括52个学科,涵盖微积分、线性代数等多个知识领域。共有13948道中文知识和推理型题目,难度分为中学、本科、研究生、职业等四个考试级别。

于是笔者查看了最新的c-eval榜单。

c-eval榜单的最新排名与前文中图片所显示的排名相符,排名前十一的大模型中,gpt-4排最后。

半年多过去了,chatgpt的排名快「垫底」了

据c-eval榜单介绍,这些结果代表zero-shot(零样本学习)或者few-shot(少样本学习)测试,但few-shot不一定比zero-shot效果好。

c-eval表示,在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果,排行榜中显示了总平均分更好的那个设置。

c-eval榜单还注明了,大模型名字中带“*”的,表示该模型结果由c-eval团队测试得到,而其他结果是通过用户提交获得。

此外,笔者还注意到,这些大模型提交测试结果的时间有很大差别。

gpt-4的测试结果提交时间是5月15日,而位居榜首的云天书,提交时间为8月31日;排第二的galaxy提交时间为8月23日;排第三的yayi提交时间为9月4日。

并且,排名前16的这些大模型,只有gpt-4的名字加了“*”,是由c-eval团队测试的。

于是笔者又查看了完整的c-eval榜单。

最新的c-eval榜单一共收录了66个大模型的排名。

半年多过去了,chatgpt的排名快「垫底」了

其中,名字带“*”,也就是由c-eval团队测试的,只有11个,且提交测试的时间均为5月15日。

这些由c-eval团队测试的大模型,openai的gpt-4排第十一,chatgpt排第三十六,而清华智谱ai的chatglm-6b排在第六十,复旦的moss排在了第六十四。

虽然这些排名可以看出国内的大模型发展势头的迅猛,但笔者认为,毕竟不是同一团队在同一时间进行的测试,不足以完全证明这些大模型谁强谁弱。

这就好比,一个班的学生,每个人的考试时间不同,答的试卷也都不一样,怎么能靠每个学生的分数比高低呢?

02 大模型开发者怎么说?多家表示在中文等能力上超过chatgpt

最近,大模型的圈子相当热闹。

又是百度、字节等8家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。又是其他公司相继发布自家大模型产品。

那这些大模型的开发者又都是怎么介绍自家产品的呢?

7月7日,在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上,复旦大学计算机科学技术学院教授、moss系统负责人邱锡鹏表示,复旦对话式大型语言模型moss在今年2月发布后,还在连续不停地迭代,“最新的moss已经能够在中文能力上超过chatgpt。”

7月底,网易有道上线翻译大模型,网易有道ceo周枫公开表示,在内部的测试中,在中英互译的方向上,已经超越chatgpt的翻译能力,也超过了谷歌翻译的水准。

8月下旬,在2023年亚布力论坛夏季高峰会上,科大讯飞创始人、董事长刘庆峰发表演讲时称,“讯飞星火大模型的代码生成和补齐能力已经超过了chatgpt,其他各项能力正在快速追赶。当前代码能力的逻辑、算法、方法体系、数据准备已就绪,所需要的就是时间和算力。”

商汤近期的新闻稿中称,今年8月,新模型internlm-123b完成训练,参数量提升至1230亿。在全球51个知名评测集共计30万道问题集合上,测试成绩整体排名全球第二,超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。

据商汤介绍,internlm-123在主要评测中,有12项成绩*。其中,在评测集综合考试中的agieval分数为57.8,超越gpt-4位列*;知识问答commonsenseqa的评测分数为88.5,*;internlm-123b在阅读理解的五项评测中成绩全部居榜首。

此外,在推理的五项评测中成绩*。

本月初,作业帮正式发布自研银河大模型。

作业帮表示,银河大模型在c-eval、cmmlu两大权威大语言模型评测基准的成绩。数据显示,作业帮银河大模型以平均分73.7分位居c-eval榜首;同时在cmmlu榜单five-shot和zero-shot测评中分别以平均分74.03分及73.85分位列*,成为*同时在上述两大权威榜单平均分*的教育大模型。

昨天,百川智能宣布正式开源微调后的baichuan 2-7b、baichuan 2-13b、baichuan 2-13b-chat与其4bit量化版本。

百川智能创始人、ceo王小川称,经过微调之后的chat模型,在中文领域,在q&a问答环境,或者摘要环境里面,评价它的实际性能已经超过chatgpt-3.5这样的闭源模型。

今天,在2023腾讯全球数字生态大会上,腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称,腾讯混元大模型中文能力已经超过gpt-3.5。

除了这些开发者的自我介绍,也有一些媒体和团队对一种大模型进行评比。

8月上旬,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示,百度文心一言在三大维度20项指标中综合评分国内*,较优于chatgpt,其中中文语义理解排名靠前,部分中文能力较优于gpt-4。

8月中旬,有媒体报道称,8月11日,小米大模型milm-6b现身c-eval、cmmlu大模型评测榜单。截至当前,milm-6b在c-eval总榜单排名第10、同参数量级排名第1,在cmmlu中文向大模型排名第1。

8月12日,天津大学发布《大模型评测报告》。报告显示,gpt-4和百度文心一言相较于其他模型综合性能显著*,两者得分相差不大,处于同一水平。文心一言已经在大部分中文任务中实现了对chatgpt的超越,并逐步缩小与gpt-4的差距。

8月下旬,有媒体报道称,快手自研的大语言模型“快意”(kwaiyii)已开启内测。在最新的cmmlu中文向排名中,快意的13b版本kwaiyii-13b同时位列five-shot和zero-shot下的*名,在人文学科、中国特定主题等方面较强,平均分超61分。

通过上述内容可以看出,这些大模型虽然纷纷号称自己在某排名中居首,或者是在某某方面超越chatgpt,但大多是在一些具体的领域表现优异。

另外,有一些综合评分超过了gpt-3.5或gpt-4,但gpt的测试是停留在5月的,谁能保证这近3个月的时间里,gpt没有进步呢?

03 openai的处境

根据瑞银集团2月的一份报告显示,在chatgpt推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。

但chatgpt的发展也不是那么顺利。

今年7月,有不少gpt-4用户吐槽,与之前的推理能力相比,gpt-4的性能有所下降。

有些用户在推特以及openai在线开发者论坛上指出了问题,集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号,只能记得最近的提示等等。

8月,又有一份报告称,openai可能处于潜在的财务危机中,可能于2024年底破产。

报告中表示,openai仅运行其人工智能服务chatgpt每天就要花费约70万美元。目前,该公司正试图通过gpt-3.5和gpt-4实现盈利,但是还尚未产生足够的收入实现收支平衡。

不过,openai或许也有新的转机。

日前,openai宣布,将于11月举办首届开发者大会。

虽然openai表示不会发布gpt-5,但openai称将有来自世界各地的数百名开发人员与openai团队一起,提前一览“新的工具”,并且交流想法。

这可能意味着,chatgpt已经取得了新的进步。

另据澎湃新闻报道,8月30日,一位知情人士透露,通过销售ai软件和驱动其运行的计算能力,openai预计将在未来12个月内实现超过10亿美元的收入。

今天,又有媒体报道称,本月晚些时候摩根士丹利将推出一款和openai共同研发的生成式人工智能聊天机器人。

和摩根士丹利的银行家打交道的人,非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验,对openai来说,也许会是一个巨大的收获。

人工智能时代的到来,已经势不可挡。至于到底谁更胜一筹,不能光靠自己说,还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超chatgpt。

(0)

相关推荐

  • 当“交个朋友”和东方甄选在抖音之外寻找新增量的时候,抖音的另一位头部主播“疯狂小杨哥”(以下简称小杨哥)也疑似入驻了拼多多。虽然无法看到小杨哥*条视频的发布时间,但根据评论时间,可以推测出是8月底在拼多多开通了账号,目前已积累有4万多粉丝,更新了30多条视频。这些视频大多是从抖音搬运而来,封面上稍作

    2023年9月5日
  • 堪比光刻机的冷冻电镜,采购量年年提升,何时才能国产化?,冷冻电镜设备或技术的研发涉及材料、光学、生物、计算科学、半导体、系统集成和先进制造等多个技术领域,加之冷冻电镜在过去很长一段时间都是一个相对小众的领域,我国缺乏对相关领域的重视和投入,自然缺少相关人才,这是不可回避的问题。

    2023年5月25日
  • 作为一个打工人大家最为关心的一定就是自己能拿到手多少钱了,那么作为一项员工们都非常在意的福利,13薪的发放标准到底是什么第13薪是基本工资还是平均工资呢?有了13薪还会不会发年终奖…

    2022年1月25日
  • 「油中茅台」金龙鱼,正在失去「神力」?

    有人曾总结出国内*钱的行业莫过于“四瓶水”:*瓶水,毋庸置疑是茅台;第二瓶水,农夫山泉;第三瓶水,海天酱油;至于第四瓶水,则是有“油中茅台”之称的金龙鱼。时至今日,前三瓶水暂且不论,这第四瓶似乎开始失去“神力”。八月份,金龙鱼披露2023年半年报后的*交易日,受今年营收和净利润双双下降的影响,金龙鱼

    2023年8月21日
  • 创新药天花板又捅破了,新冠大流行终结,不会影响医药的景气度。需求的天花板永远不会见顶,不断有巨大的增量空间被技术进步挖掘出来,这正是医药的主线逻辑。

    2023年5月11日
  • 国产大模型已无公司可投,大火热炒半年,大模型身下燃烧的大火开始转向小火模式,在年初“宣布入局”和年底“模型/产品问世”之间的这段空隙,种种迹象表明,大模型创投界渐渐迎来了第一波冷静期。

    2023年8月13日
  • 决战618,明星们争当「李佳琦」,除了人气基础外,不走寻常路的人设和好看的内容才是“卷王”们的核心竞争力。

    2023年6月19日
  • 鹤岗,被低估的消费,鹤岗是中国低线城市进行零售变革的一个例子。也许鹤岗走到今天,是因为一些网红机遇,但对于无数个“鹤岗”来说,零售变革是当下的必然。机会出现的方式千千万,决定其是昙花一现还是静水流深,这考验的是城市,也是城市里的人。鹤岗经验,或许可以给其他城市一些参考。

    2023年3月28日
  • 汽车芯片,何以破「荒」,根据日本精密加工研究所所长汤之上隆的预测:展望汽车产业的未来,车载半导体将出现几个极端的“短缺”:传统的功率和模拟半导体,以及只有台积电才能生产的尖端5g半导体和ai半导体。

    2023年4月18日
  • 最近这一段时间a股对于养老这个板块非常的关注,因为确实老龄化这个问题每个人都要面对,这篇文章就跟大家聊聊这个话题,介绍一些在a股市场上做养老的优质股! 珠江股份:珠江实业健康管理有…

    2022年1月25日
  • 智能手机的时代,“电量焦虑”是一个从未得到*解决的问题。彼得·戴曼迪斯在《创业无畏》中写下:“世界上*的问题等于*的商机。”近期,科技消费公司怪兽充电发布了2023年第二季度业绩报告。根据财报,怪兽充电第二季度实现营业收入10.36亿元人民币,同比增长50%;经调整后的净利润为3010万元人民币,实

    2023年8月30日
  • 水晶发债什么时上市交易(上市估计在97~101元之间)

    水晶转债(128020)2017年12月12日上市,发行规模11.8亿元,11月17日申购,多达704.1837万户投资者申购,成为有史以来申购人数最多的可转债。绝大多数券商只告诉…

  • 酒鬼酒(000799.cn)跌0.52%报191.00元, 皇台酒业(000995.cn)跌4.03%报25.7元,顺鑫农业(000860.cn)跌2.76%报35.61元,会稽山…

  • 退税是什么意思?据悉退税是指国家按规定对纳税人已纳税款的退还,优惠退税是税收支出的一种形式,即国家为鼓励纳税人从事或扩大某种经济活动而给予的税款退还。通常包括出口退税和再投资退税两…

    2022年1月25日
  • 固定直播入口,美团阵战抖音,美团的外卖直播试水集中于餐饮领域以官方直播的形式推动,美团app内上线直播入口,意味着美团直播从餐饮外卖扩张至更广阔的本地生活赛道。

    2023年7月13日
网站地图