AI产品调研 - 物流网资讯

AI产品调研

2024-12-27 05:22

文心一言算是国内大模型的佼佼者，而扣子则在智能体方面有着不错的表现。在一些常见的场景上，这两个模型都有什么样的表现？这篇文章，我们看看作者的分析。

nclick=''>

一、文心一言

1.1 分析目的

了解文心一言当前产品现状与最新功能解读。

1.2 产品基本信息

1. 研发公司：百度

2. 官网：https://yiyan.baidu.com/

3. 产品定位：治愈系智能产品，以声音和科技为媒介，为人们提供温暖治愈和关怀（对话机器人）

4. 面向用户：广泛消费者与企业用户，如 IT 互联网从业者、教育工作者与学生、中小企业等

5. 使用情况：用户量 4.3 亿（截止 24.11.12，百度世界 2024 大会宣布）

1.3 核心业务

1.3.1 基础能力

理解能力：理解上下文，为用户提供快捷的知识获取方式

生成能力：生成高质量的文本内容、图片、代码等，例如新闻报道、小说创作等

逻辑能力：复杂的逻辑难题、数学计算均可帮助用户解决

记忆能力：多轮对话后，仍然记得很早之前文本中的重点等

1.3.2 主要业务场景

生活助手：如美食推荐、运动规划等

情感陪伴：如心理咨询、闲聊陪伴、人际交往等

职场提效：如文案撰写、辅助编程等

休闲娱乐：如歌单推荐、头像生成等

学习成长：如技能学习、论文提效、学习规划等

1.4 产品体验

1.4.1 产品功能

1）对话

更贴合国人的交流习惯：智能伙伴，既能写文案、想点子，又能聊天、答疑解惑，支持多模态形式，工作生活提效。

nclick=''>

来源：文心一言

2）智能体

可根据需要创建自己的智能体，也可在智能体广场直接使用某一垂类场景他人已发布的智能体，快速上手。

nclick=''>

3）百宝箱

参考指令（Prompt）：提供各场景、各职业的专业指令参考，辅助快速生成内容。

nclick=''>

4）社区（仅 App）

用户交流社区，可对自有内容或他人内容进行分享学习，增加用户粘性。

nclick=''>

1.4.2 使用体验

1）错误辨识（与 Kimi、通义千问对比）

结论：回答正确、没有乱说，相比 Kimi、通义千问，文心一言在家庭关系状态类的问题上表现更好一些。

●询问一些经典问题

（1）猫为什么会飞？

结论：均回答正确，且给出了其他可能出现的场景例子。

nclick=''>

来源 - 文心一言：24/11 月测试

nclick=''>

来源 -Kimi：24/11 月测试

nclick=''>

来源 - 通义千问：24/11 月测试

（2）1+1 在什么情况下等于 3？

结论：均回答正确，且都给出了一些可能等于 3 的场景例子。

nclick=''>

（3）爷爷奶奶能不能结婚？

结论：文心一言结合法律法规的基础上，补充了常规观念。

nclick=''>

2）智力

结论：计算能力有所提升、并更细化了思考步骤；不过偶尔出现题目太绕，导致很难明白问题本质原因的情况。

●询问计算、脑筋急转弯问题

（1）5 年前，妈妈年龄是儿子的 7 倍，儿子今年 9 岁，妈妈今年多少岁？（与文心一言 23 年表现对比）

结论：相比去年文心一言计算准确性提升了。

nclick=''>

来源 - 文心一言：23/4 月 CSDN 文章

nclick=''>

（2）有两个人决定进行自行车比赛，看谁的自行车跑的快，比赛在一个平坦宽敞的体育场里进行，但当比赛开始时，他们两个却谁也不愿意领先，反而都在慢悠悠的骑，已知他们两人都不会互相谦让，也没有外来因素干扰，总之，一切都很正常，这究竟是为什么呢 ?（正确答案：因为两人互换了自行车）

结论：较长的脑筋急转弯，文心一言并没有给出准确答案，只推测出现象的可能原因。

nclick=''>

3）表达

结论：表达比较清晰，会突出核心重点；不过在部分问答时，没有分点式说明，不如 ChatGPT 更有阅读意愿。

●润色文章

结论：按照提示词要求润色文章，语句通畅，表达比较不错。

（1）Prompt

我有一段文字，内容如下：

GPT 是 LLM 的一种特定实现，通过海量数据训练的深度学习模型，能够识别人的语言、执行语言类任务，并拥有大量参数。它使用 Transformer 架构，并通过大规模的预训练，学习语言的模式和结构；ChatGPT 则是基于这些内容而实现出来供我们使用的产品。

要求：我希望你对其进行润色，让这段文字更清晰，使用亲和的风格、严肃的语气、传达核心知识。

完成润色后，希望你能解释一下你是如何改动的。

限制：500 字以内。

2）结果截图

nclick=''>

●用户情感

结论：文心一言和 ChatGPT 在语言风格和处理逻辑上有较大的差异，ChatGPT 的回答兼具程序化和人文关怀，而文言一心虽然更加贴近自然地沟通交流，但不像 ChatGPT 保持分点式回答，阅读意愿上在对比中文心一言这一块的表现稍弱。

nclick=''>

来源 -ChatGPT：24/11 月测试

4）速度

结论：使用过程中，文心一言 AI 回答的速度基本分布在 2～5 秒之间，相比 Kimi、通义千问模型稍快一些。

5）专业能力

结论：提供多场景、各行各业的专业指令关键词供用户使用，可帮助用户更高效的完成各种任务；专业领域问题有待辨识。

●一言百宝箱

结论：多样化的场景提示词供用户使用。

nclick=''>

●专业领域问题

结论：专业领域问题答案有待辨识。

（1）患者，女，29 岁，因有机磷中毒入院治疗，在治疗过程中出现阿托品中毒，应立即给予什么治疗？（教科书类内容查询答案为：输液及毛果芸香碱）

nclick=''>

6）亮点功能

AI 绘画是文心一言的亮点功能，其他大模型如 Kimi、通义千问没有的能力，并且画质相比 2023 年也提升了很多。

nclick=''>

来源：23/4 月 CSDN 文章

nclick=''>

来源：24/11 月测试

1.5 技术架构

文心一言底层基于 Transformer 结构，依托飞桨、文心大模型开发的。这种架构使其具备卓越的自然语言处理能力，能够理解和生成文本，完成各种任务。

1.6 总结

● 优势

在模型能力上，相比较 Kimi、通义千问，文心一言拥有多模态能力，如文本生成、图像生成等。

在内容风格上，相比 ChatGPT 更有人情味，文心一言的内容语气更亲和、温和。

在 AI 绘画上，画图功能有了很大提升，画质更清晰，之前出现的图片胡乱生成的情况变少了。

● 劣势

文字的处理及创作上，丰富的感情和思想内涵还是目前 AI 做不到的。

部分用户情感类问题回复不如 ChatGPT 有条理性。

在处理专业领域的问题时，准确性有待辨别。

二、扣子（coze 国内版）

2.1 分析目的

了解扣子产品现状与功能体验。

2.2 产品基础信息

1. 研发公司：字节跳动

2. 官网：https://www.coze.cn/home

3. 产品定位：新一代 AI 应用开发平台。

4. 用户体量：月访问用户数 200 万左右（来源：截至 24/6 月 Similarweb 数据）

5. 面向用户：

nclick=''>

2.3 为什么要做扣子？

1. 行业内对 Agent 的广泛关注

很多业界的人把大模型的出现比作当年移动互联网的出现，移动互联网的应用呈现是 App，很多业界人士统一认知，AI 应用的呈现形式是 Agent；字节的另一款产品 " 豆包 "，主要的呈现形式就是一个综合性的 AI 智能体平台，可见 Agent 在其产品里的认知很深刻。

2. 人工智能领域需要一个快速构建 AI 应用的平台

移动互联网时代有快速构建 App 的标准技术，发布 App 的应用商店，那 AI 时代的应用开发平台是什么？应用发布平台又是什么呢？这个时代需要有一个更低的门槛，帮助用户快速构建 AI 应用。

3. 豆包的发展加速了扣子的研发

豆包早期平台内的智能体是由官方为了丰富 AI 引用场景，发布了 20 多个官方智能体，包括写作助手、图片生成等，但后续将创建智能体交给了第三方和用户，推测豆包官方感受到了创建智能体的有限性，要促进 AI 智能体的生态，需要一个更专业的 AI 智能体开发平台。

2.4 核心能力

1. 快速开发 AI 应用、智能体

无编程基础也可使用，快速搭建智能体。

2. 灵活的模型选择与编排

1）Prompt（可自动优化已编辑的提示词）

提示词编写，是用户创建智能体最基本的技能，很多智能体，通过精心的编排和设计提示词基本都能达到比较好的效果，扣子提供了提示词优化的功能，不过没有提示词模板，对于没有提示词基础的用户，可能不是很友好。

nclick=''>

来源：扣子 - 创建智能体

2）插件（700 多个）

插件是构建 AI 应用必不可少的能力，大家都知道大模型只是提供了文本生成等能力，但不具备搜索引擎、网页内容查询等能力，构建 AI 应用的过程中，不仅需要大模型的基础能力，还需要把大模型武装起来，这时候就需要插件来支持，插件本质是各种 API 服务，扣子通过调用这些 API 来实现各种功能。

扣子可根据左侧的提示词，自动生成一些插件，提高用户操作效率。

第三方大模型：插件中还包含第三方模型服务，如通义千问等，用户可根据需要自行选择模型。

nclick=''>

3）知识库（可自建 / 上传）

帮助模型学习更多知识，解决一些专业问题，在解决一些垂直行业的问题，提供知识库是非常有必要的，也是提高模型生成内容的准确性，扣子可自建 / 上传本地文件、网页、笔记、数据表、图片等。

nclick=''>

4）记忆能力

由于部分模型存在一些上下文限制，模型的记忆能力有限，若需让产品有长期记忆的能力，扣子提供了变量、数据库、文件等长期记忆功能。

nclick=''>

5）工作流（编排服务，提供模版）

对于需要通过一系列流程、规划才能实现的 AI 应用，工作流功能提供了比较好的编排服务，对于有编程基础的人员是比较好的体验，不过对于不会编程的人员，使用起来还是有门槛的，好在扣子提供了工作流模板，在一定程度上降低了部分功能门槛。

nclick=''>

来源：扣子 - 创建应用

3. 应用发布

1）与集成多渠道发布豆包、扣子商城、应用分发平台、社交媒体账号平台、开

发者社区。

2）与外部系统集成。

4. 商店

用户可以将自己创建的智能体发布到商店，也可在商店直接使用他人已发布的智能体，提高效率。

nclick=''>

来源：扣子 - 商店

2.5 用户痛点与需求

1.AI 应用自研的门槛高，投入成本大

2. 单一的 AI 应用功能扩展性差，资源集成工作量大

3. 应用场景复杂多变（用户需求多样，且个性化，难以找到解决个性化需求的 AI 应用）

2.6 商业模式

主要向开发者收费，较典型的 SaaS 增值付费模式，分为基础版与专业版。

1. 基础版

1）基础应用开发能力：限制团队可使用人数、知识库使用空间、API 调用量等。

2）模型使用权限：可使用的模型有限，更多模型需开通专业版。

3）AI 应用使用量：发布到扣子商店后，限制 AI 应用的使用量。

2. 专业版

1）基础应用开发能力扩充：不限制 API 调用次数等，限制调用频率等。

2）可使用模型种类增多：可使用火山方舟上更丰富的模型与版本。

3）AI 应用使用量、调用量不做限制：按照专业版计费方式收费。

2.7 挑战与难题

1. 对于没有编排基础的用户

1）产品的使用难度还是比较高

2）使用关键配置功能门槛较高

3）模型效果难以达到预期

2. 对于有编排基础的用户

1）智能体的商业变现模式还不清晰

2）开发者缺乏专业、丰富的知识库资源

三、总结

字节的扣子应用降低了 AI 开发门槛，集成丰富的插件与强大的功能，支持快速构建、部署 AI Bot，并一键发布至多平台，操作简单、功能丰富；但目前只能部署到有限的应用中，无法将机器人嵌入到更多的应用中，降低了系统的灵活性和适用性。

本文由 @不知名产品露原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务