ChatGPT & Kimi,选择什么?

   日期:2024-12-27    作者:szlini3395 移动:http://mip.riyuangf.com/mobile/quote/63298.html

这是我们的第122篇原创文章

3月18日,AI创企月之暗面(Moonshot AI)宣布其智能助手Kimi在长上下文窗口技术上取得突破,无损上下文长度提升至200万字,目前已开启内测。

一石激起千层浪,Kimi这一举动激活了整个国产大模型市场。

3月22日晚上,阿里通义千问宣布,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。也有媒体从知情人士处获悉,百度文心一言下个月将进行版本升级,也将开放长文本能力,文字范围会在200万—500万。

Kimi 爆火出圈,今天我们从普通使用者的角度来体验一下,作为AI聊天“扛把子”的ChatGPT 4 和 国产爆火的 Kimi 在目前的常用领域表现如何?

以下主要从文本阅读分析能力,计算逻辑能力,文字编辑能力三个维度出发,希望对大家有所帮助。

Kimi 的最新突破是达到了无损上下文长度提升至200万字,这也是 Kimi 的优势所在,在这部分体验里,会从三个方向入手:常规文本的归纳总结;Kimi 在长文本上的阅读分析能力;国内联网搜索能力。

1.1常规归纳分析能力

这里选择了一篇环境保护方面的新闻稿,将新闻稿原本的段落全部删除后,以一整段文本的形式分别发送给 ChatGPT 和 Kimi ,看一下双方在文本的归纳总结上的能力。

从 ChatGPT 和 Kimi 的总结来看,ChatGPT 的归纳更着重于结构的清晰度,清晰的标明了10个典型案例的内容,然后总结全文,整体结构非常明确,而 Kimi 对于典型案例是一笔带过,重心更多放在了文章结尾的总结升华部分。个人在这部分的体验感是Kimi更了解国内平台新闻稿的结构,而ChatGPT的归纳更清晰明确,可以根据自己的需求去选择更合适的归纳方式。

1.2PDF长文本阅读能力

我选择了一份300多页的pdf文件让 Kimi 进行阅读总结,并且提问了一些简单的问题。

整体速度较快,10秒左右可以迅速的归纳文本内容,找出其中重点部分,并且可以应对简单的提问。

在长文本性能测试方面,一位AI大模型领域的开发者 Greg Kamradt 设计了一个名为“大海捞针”的大模型长文本性能测试方法:

在文本语料中藏入一个与文本语料不相关的句子(可以想象是在整本《西游记》里放入一句只会在《红楼梦》里出现的话),然后看大模型能不能通过自然语言提问的方式(Prompt)把这句话准确地提取出来。

Greg Kamradt 的“大海捞针”实验简述:

“大海”:Paul Graham 的文章合集作为语料

“针”:“The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.”

提问:"What is the most fun thing to do in San Francisco based on my context? Don't give information outside the document"

期待模型输出的正确答案:

The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.

Kimi 的 工程师同样使用这种方式对 Kimi 的长文本能力进行了压力测试,有兴趣的小伙伴可以了解一下具体测试内容:https://mp.weixin.qq.com/s/IC5-FGLVHzHHYqH6x-aNng

Kimi提出的支持200万字无损上下文能力,这份能力如果可以稳定扎实的实现阅读总结归纳,意味着可以同步读取完上百份文档,我们可以批量对它进行“教学”,将你需要学习的模块内的相关书籍发送给它,让它帮你总结规划,迅速完成任何一个行业的基础入门教学。

1.3国内联网搜索

作为国内的大语言模型,Kimi 的联网搜索功能,可以轻松搜索到国内平台的新闻和文章,附便于提取使用,在针对国内市场的工作任务环境,会有较好效果。

联网搜索的范围较广,除新闻网站外,还会收集一些专业领域网站,并且会对搜索内容进行提炼,降低用户的搜索成本。

同时在体验过程中发现,Kimi有一个很适合新手用户的使用的点,其在提问过程中,每次回答后会在答案下方衍生出三个相关的问题给你,对于不擅长提问的小白玩家来说会有很好的启发性。

目前在市面上没有公开的详细比较研究 Kimi 与 ChatGPT 的计算能力差异的相关文献,所以我们做一些简单的题目测试来初步观察一下 ChatGPT 和 Kimi 在计算逻辑方面的差异性。

2.1数学题

首先选择了比较简单的小学算术题进行测试,挑选了三个简单的算术问题进行询问,进行了三轮问题提示 ChatGPT 和 Kimi 的答案都是没有问题的。

提升难度进行了复杂一些的算术测试,分别进行了一轮乘法和一轮除法运算。

在这一轮使用中,双方呈现出了差异性,在数学题目的运算上经过几轮测试得出结论。

在计算方面,ChatGPT 4 的准确度更高。

Kimi 目前的计算能力相对较弱,在给出答案时询问是否准确的时候会多次重新计算出错误答案,或者二次校验答案同第一次相同的情况下(答案正确),也称自己第一次计算错误,而 GPT 在二次询问过程里,二次计算结果相同情况下,会直接反馈第一次的计算是正确的。

2.2推理题

最后测试了两个推理题目。

题目一的方向主要是基于文本语义的衍生判断答案,选自行测题库。

题目一双方的回答都没有问题,Kimi的反应速度相较更迅速,对于中文的理解速度更快,当然也不排除作为国内的大语言模型本身有这方面的数据内容。

题目二为逻辑推理题,选择了一些程序和银行工作面试中容易出现的题目

题目二涉及到了计算任务,在答案上双方的出现了差异,从第二题的结果来看,ChatGPT 提供的答案准确度更高,同样在推理题上,二次询问 Kimi 也会出现以下问题:同第一次答案相同,但是表示第一次是错误的。

通过这几轮的测试可以看出,在逻辑计算方面,目前 ChatGPT 4 的表现更优,Kimi相对弱势。

目前AI对话式工具在学习工作中被广泛运用到了论文撰写,工作总结,脚本撰写等领域,作为普通工作用户,对于AI的文字编辑能力很重视,经过对身边一些人的使用环境进行了解后,下面会通过三个案例来了解 ChatGPT 和 Kimi 在文字编辑能力上的差异,以下是选择的三个维度。

1️⃣工作往来邮件

2️⃣视频脚本撰写

3️⃣段落润色

3.1工作往来邮件

以下以一个给客户发送感谢邮件为案例的方式,来考察 ChatGPT 和 Kimi 在文字编辑上能力的差异,为了方便对比,在 Prompt 的设计上都没有做太多限制,仅表达了比较简单的内容。

ChatGPT 和 Kimi 在语言理解和撰写上都没有太大问题,但是 GPT 作为海外的软件,整体邮件更带有“译文”的感觉,中文阅读上较为不通畅,相较下 Kimi 作为国内的软件,在中文的撰写上表达更加清晰。

3.2视频脚本撰写

在视频脚本的 Prompt 撰写上,为了能够看出 ChatGPT 和 Kimi 的理解差异性,去掉了对于表格内容的限制,让它们自己根据情况生成。

单纯从模板来看,ChatGPT提供了每个分镜对应的时间,整体时间轴更清晰,脚本内容更“正经”,整体更像企业风的推广视频,Kimi 整体故事性较强,提议了人物的A,B角色,更有利于脑海中构建场景,在语言的描述上对于中文的支持性较好,整体更通顺,甚至设定了“沟通无界,连接你我”的口号,很符合中文使用环境。

3.3段落润色

在段落润色修改上,使用了测评文和新闻稿两个角度,针对同一段文字,让 ChatGPT 和 Kimi 进行了回答。

ChatGPT 的回答相对简洁,更倾向于针对“段落”单独的进行修改,仅限于对这段话的调整,方便将这段话运用在其他地方,而 Kimi 更倾向于对于这段话进行重新优化排版形成完整的文章。

在语言风格上,Kimi 更懂中文,对于中文的支持更加友好,在撰写倾向于目前的国内平台自媒体爆款文章上,Kimi的表现会更符合期待。

通过这三个简单的切入点,体验了一下 ChatGPT 和 Kimi 两款AI对话平台,两者在能力的表现上,各有差异和倾向点。

ChatGPT 4 作为一款全球性的智能对话软件,其数据是庞大的,在逻辑计算和推理方面,毋庸置疑有着比Kimi更高的准确性和能力,在计算方面的准确度和文章结构的清晰度上,都有着更优秀的表现。

Kimi在文本阅读,联网搜索和中文支持的领域,有着更突出的表现,尤其是作为一款国内的免费大语言模型,在需要中文相关的工作上,其对话的流程性更好,语义更加通畅。

个人认为,如果是在国内进行使用,并且以文字类工作为主的情况下,可以尝试多使用 Kimi 去帮助自己分析和搜索,其优秀的联网搜索能力,可以大幅度提高个人生产力,在数据分析等方面,可以更多的关注 ChatGPT 4 的表现,追求更精准的算法和准确度。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号