分享好友 最新资讯首页 最新资讯分类 切换频道
AI产品调研
2024-12-27 05:22

文心一言算是国内大模型的佼佼者,而扣子则在智能体方面有着不错的表现。在一些常见的场景上,这两个模型都有什么样的表现?这篇文章,我们看看作者的分析。

nclick=''>

一、文心一言

1.1 分析目的

了解文心一言当前产品现状与最新功能解读。

1.2 产品基本信息

1. 研发公司:百度

2. 官网:https://yiyan.baidu.com/

3. 产品定位:治愈系智能产品,以声音和科技为媒介,为人们提供温暖治愈和关怀(对话机器人)

4. 面向用户:广泛消费者与企业用户,如 IT 互联网从业者、教育工作者与学生、中小企业等

5. 使用情况:用户量 4.3 亿(截止 24.11.12,百度世界 2024 大会宣布)

1.3 核心业务

1.3.1 基础能力

理解能力:理解上下文,为用户提供快捷的知识获取方式

生成能力:生成高质量的文本内容、图片、代码等,例如新闻报道、小说创作等

逻辑能力:复杂的逻辑难题、数学计算均可帮助用户解决

记忆能力:多轮对话后,仍然记得很早之前文本中的重点等

1.3.2 主要业务场景

生活助手:如美食推荐、运动规划等

情感陪伴:如心理咨询、闲聊陪伴、人际交往等

职场提效:如文案撰写、辅助编程等

休闲娱乐:如歌单推荐、头像生成等

学习成长:如技能学习、论文提效、学习规划等

1.4 产品体验

1.4.1 产品功能

1)对话

更贴合国人的交流习惯:智能伙伴,既能写文案、想点子,又能聊天、答疑解惑,支持多模态形式,工作生活提效。

nclick=''>

来源:文心一言

2)智能体

可根据需要创建自己的智能体,也可在智能体广场直接使用某一垂类场景他人已发布的智能体,快速上手。

nclick=''>

3)百宝箱

参考指令(Prompt):提供各场景、各职业的专业指令参考,辅助快速生成内容。

nclick=''>

4)社区(仅 App)

用户交流社区,可对自有内容或他人内容进行分享学习,增加用户粘性。

nclick=''>

1.4.2 使用体验

1)错误辨识(与 Kimi、通义千问对比)

结论:回答正确、没有乱说,相比 Kimi、通义千问,文心一言在家庭关系状态类的问题上表现更好一些。

●询问一些经典问题

(1)猫为什么会飞?

结论:均回答正确,且给出了其他可能出现的场景例子。

nclick=''>

来源 - 文心一言:24/11 月测试

nclick=''>

来源 -Kimi:24/11 月测试

nclick=''>

来源 - 通义千问:24/11 月测试

(2)1+1 在什么情况下等于 3?

结论:均回答正确,且都给出了一些可能等于 3 的场景例子。

nclick=''>
nclick=''>
nclick=''>

(3)爷爷奶奶能不能结婚?

结论:文心一言结合法律法规的基础上,补充了常规观念。

nclick=''>
nclick=''>
nclick=''>

2)智力

结论:计算能力有所提升、并更细化了思考步骤;不过偶尔出现题目太绕,导致很难明白问题本质原因的情况。

●询问计算、脑筋急转弯问题

(1)5 年前,妈妈年龄是儿子的 7 倍,儿子今年 9 岁,妈妈今年多少岁?(与文心一言 23 年表现对比)

结论:相比去年文心一言计算准确性提升了。

nclick=''>

来源 - 文心一言:23/4 月 CSDN 文章

nclick=''>

(2)有两个人决定进行自行车比赛,看谁的自行车跑的快,比赛在一个平坦宽敞的体育场里进行,但当比赛开始时,他们两个却谁也不愿意领先,反而都在慢悠悠的骑,已知他们两人都不会互相谦让,也没有外来因素干扰,总之,一切都很正常,这究竟是为什么呢 ?(正确答案:因为两人互换了自行车)

结论:较长的脑筋急转弯,文心一言并没有给出准确答案,只推测出现象的可能原因。

nclick=''>

3)表达

结论:表达比较清晰,会突出核心重点;不过在部分问答时,没有分点式说明,不如 ChatGPT 更有阅读意愿。

●润色文章

结论:按照提示词要求润色文章,语句通畅,表达比较不错。

(1)Prompt

我有一段文字,内容如下:

GPT 是 LLM 的一种特定实现,通过海量数据训练的深度学习模型,能够识别人的语言、执行语言类任务,并拥有大量参数。它使用 Transformer 架构,并通过大规模的预训练,学习语言的模式和结构;ChatGPT 则是基于这些内容而实现出来供我们使用的产品。

要求:我希望你对其进行润色,让这段文字更清晰,使用亲和的风格、严肃的语气、传达核心知识。

完成润色后,希望你能解释一下你是如何改动的。

限制:500 字以内。

2)结果截图

nclick=''>

●用户情感

结论:文心一言和 ChatGPT 在语言风格和处理逻辑上有较大的差异,ChatGPT 的回答兼具程序化和人文关怀,而文言一心虽然更加贴近自然地沟通交流,但不像 ChatGPT 保持分点式回答,阅读意愿上在对比中文心一言这一块的表现稍弱。

nclick=''>
nclick=''>

来源 -ChatGPT:24/11 月测试

4)速度

结论:使用过程中,文心一言 AI 回答的速度基本分布在 2~5 秒之间,相比 Kimi、通义千问模型稍快一些。

5)专业能力

结论:提供多场景、各行各业的专业指令关键词供用户使用,可帮助用户更高效的完成各种任务;专业领域问题有待辨识。

●一言百宝箱

结论:多样化的场景提示词供用户使用。

nclick=''>
nclick=''>

●专业领域问题

结论:专业领域问题答案有待辨识。

(1)患者,女,29 岁,因有机磷中毒入院治疗,在治疗过程中出现阿托品中毒,应立即给予什么治疗?(教科书类内容查询答案为:输液及毛果芸香碱)

nclick=''>

6)亮点功能

AI 绘画是文心一言的亮点功能,其他大模型如 Kimi、通义千问没有的能力,并且画质相比 2023 年也提升了很多。

nclick=''>

来源:23/4 月 CSDN 文章

nclick=''>

来源:24/11 月测试

1.5 技术架构

文心一言底层基于 Transformer 结构,依托飞桨、文心大模型开发的。这种架构使其具备卓越的自然语言处理能力,能够理解和生成文本,完成各种任务。

1.6 总结

● 优势

在模型能力上,相比较 Kimi、通义千问,文心一言拥有多模态能力,如文本生成、图像生成等。

在内容风格上,相比 ChatGPT 更有人情味,文心一言的内容语气更亲和、温和。

在 AI 绘画上,画图功能有了很大提升,画质更清晰,之前出现的图片胡乱生成的情况变少了。

● 劣势

文字的处理及创作上,丰富的感情和思想内涵还是目前 AI 做不到的。

部分用户情感类问题回复不如 ChatGPT 有条理性。

在处理专业领域的问题时,准确性有待辨别。

二、扣子(coze 国内版)

2.1 分析目的

了解扣子产品现状与功能体验。

2.2 产品基础信息

1. 研发公司:字节跳动

2. 官网:https://www.coze.cn/home

3. 产品定位:新一代 AI 应用开发平台。

4. 用户体量:月访问用户数 200 万左右(来源:截至 24/6 月 Similarweb 数据)

5. 面向用户:

nclick=''>

2.3 为什么要做扣子?

1. 行业内对 Agent 的广泛关注

很多业界的人把大模型的出现比作当年移动互联网的出现,移动互联网的应用呈现是 App,很多业界人士统一认知,AI 应用的呈现形式是 Agent;字节的另一款产品 " 豆包 ",主要的呈现形式就是一个综合性的 AI 智能体平台,可见 Agent 在其产品里的认知很深刻。

2. 人工智能领域需要一个快速构建 AI 应用的平台

移动互联网时代有快速构建 App 的标准技术,发布 App 的应用商店,那 AI 时代的应用开发平台是什么?应用发布平台又是什么呢?这个时代需要有一个更低的门槛,帮助用户快速构建 AI 应用。

3. 豆包的发展加速了扣子的研发

豆包早期平台内的智能体是由官方为了丰富 AI 引用场景,发布了 20 多个官方智能体,包括写作助手、图片生成等,但后续将创建智能体交给了第三方和用户,推测豆包官方感受到了创建智能体的有限性,要促进 AI 智能体的生态,需要一个更专业的 AI 智能体开发平台。

2.4 核心能力

1. 快速开发 AI 应用、智能体

无编程基础也可使用,快速搭建智能体。

2. 灵活的模型选择与编排

1)Prompt(可自动优化已编辑的提示词)

提示词编写,是用户创建智能体最基本的技能,很多智能体,通过精心的编排和设计提示词基本都能达到比较好的效果,扣子提供了提示词优化的功能,不过没有提示词模板,对于没有提示词基础的用户,可能不是很友好。

nclick=''>

来源:扣子 - 创建智能体

2)插件(700 多个)

插件是构建 AI 应用必不可少的能力,大家都知道大模型只是提供了文本生成等能力,但不具备搜索引擎、网页内容查询等能力,构建 AI 应用的过程中,不仅需要大模型的基础能力,还需要把大模型武装起来,这时候就需要插件来支持,插件本质是各种 API 服务,扣子通过调用这些 API 来实现各种功能。

扣子可根据左侧的提示词,自动生成一些插件,提高用户操作效率。

第三方大模型:插件中还包含第三方模型服务,如通义千问等,用户可根据需要自行选择模型。

nclick=''>

3)知识库(可自建 / 上传)

帮助模型学习更多知识,解决一些专业问题,在解决一些垂直行业的问题,提供知识库是非常有必要的,也是提高模型生成内容的准确性,扣子可自建 / 上传本地文件、网页、笔记、数据表、图片等。

nclick=''>

4)记忆能力

由于部分模型存在一些上下文限制,模型的记忆能力有限,若需让产品有长期记忆的能力,扣子提供了变量、数据库、文件等长期记忆功能。

nclick=''>

5)工作流(编排服务,提供模版)

对于需要通过一系列流程、规划才能实现的 AI 应用,工作流功能提供了比较好的编排服务,对于有编程基础的人员是比较好的体验,不过对于不会编程的人员,使用起来还是有门槛的,好在扣子提供了工作流模板,在一定程度上降低了部分功能门槛。

nclick=''>

来源:扣子 - 创建应用

3. 应用发布

1)与集成多渠道发布豆包、扣子商城、应用分发平台、社交媒体账号平台、开

发者社区。

2)与外部系统集成。

4. 商店

用户可以将自己创建的智能体发布到商店,也可在商店直接使用他人已发布的智能体,提高效率。

nclick=''>

来源:扣子 - 商店

2.5 用户痛点与需求

1.AI 应用自研的门槛高,投入成本大

2. 单一的 AI 应用功能扩展性差,资源集成工作量大

3. 应用场景复杂多变(用户需求多样,且个性化,难以找到解决个性化需求的 AI 应用)

2.6 商业模式

主要向开发者收费,较典型的 SaaS 增值付费模式,分为基础版与专业版。

1. 基础版

1)基础应用开发能力:限制团队可使用人数、知识库使用空间、API 调用量等。

2)模型使用权限:可使用的模型有限,更多模型需开通专业版。

3)AI 应用使用量:发布到扣子商店后,限制 AI 应用的使用量。

2. 专业版

1)基础应用开发能力扩充:不限制 API 调用次数等,限制调用频率等。

2)可使用模型种类增多:可使用火山方舟上更丰富的模型与版本。

3)AI 应用使用量、调用量不做限制:按照专业版计费方式收费。

2.7 挑战与难题

1. 对于没有编排基础的用户

1)产品的使用难度还是比较高

2)使用关键配置功能门槛较高

3)模型效果难以达到预期

2. 对于有编排基础的用户

1)智能体的商业变现模式还不清晰

2)开发者缺乏专业、丰富的知识库资源

三、总结

字节的扣子应用降低了 AI 开发门槛,集成丰富的插件与强大的功能,支持快速构建、部署 AI Bot,并一键发布至多平台,操作简单、功能丰富;但目前只能部署到有限的应用中,无法将机器人嵌入到更多的应用中,降低了系统的灵活性和适用性。

本文由 @不知名产品露 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

最新文章
私域线上营销:解锁品牌增长新维度的密钥
在数字化浪潮的席卷下,营销领域正经历着前所未有的变革。其中,私域线上营销以其独特的魅力,逐渐成为品牌连接消费者、深化关系
谷歌AI视频模型炸场:4K分辨率+2分钟时长 又给OpenAI“来了一枪”
财联社消息,Sora正式发布仅8天后,“谷歌版Sora”的2.0版本——Veo 2便正式发布。据谷歌官网显示,Veo 2可制作具有逼真动作和高
无敌的存在!神马影视影院在线:领略电影世界的无穷魅力
在这个信息高速发展的时代,影视娱乐早已成为人们日常生活中不可或缺的一部分。为了满足观众对优质内容的需求,神马影视影院在线
透过率测试仪哪些牌子好
如今,许多不同的行业都需要透射比测试仪。透射比测试仪有着广泛的应用,如玻璃镜片、涂层材料、有机材料和抗蓝光材料的透射比测
聚力三大发展引擎助推工业经济生产力
今年以来,金塔县紧紧围绕“工业主导型”发展定位,把实施“强工业”行动作为推动工业经济高质量发展的基础性、引领性工程来抓,
抖音外链解析与建设规划
前言外链建设是搜索引擎优化 (SEO) 的重要组成部分,对于提升网站在抖音平台上的可见性和排名至关重要。本文将提供一个全面的网
德国企业供应链管理
德国企业供应链管理  德国供应链管理总费用一般占企业营业额的7%。实行供应链管理的企业的利润率为未实行企业的两倍。实行供应
抖音2024年10月米类榜单
​​根据星图数据显示,抖音平台2024年10月米类热卖品牌榜单,第一名陈爱民,销售额为1830.53万元。第二名福临门,销售额为1374.
淘宝关键词词根是什么意思?淘宝词根有哪些优化方法?
淘宝关键词词根是什么意思?淘宝词根有哪些优化方法?
重大来袭“德扑之星辅助软件ios”确实有挂-知乎
无需打开直接搜索微信78485927您好:德扑之星辅助软件ios这款游戏可以开挂,确实是有挂的,很多玩家在开心神兽这款游戏中打牌都