国产大模型“考上”一本；ChatGPT语音助手推迟发布｜ AI头条

国产大模型“考上”一本；ChatGPT语音助手推迟发布｜ AI头条

2024-12-26 14:07

整理 | 王轶群

出品 | AI 科技大本营（ID：rgznai100）

一分钟速览新闻点！

OpenAI 宣布首款适用于 Mac 的 ChatGPT 应用开放下载
为确保安全性，OpenAI 官宣推迟 ChatGPT 语音助手发布时间至下月
OpenAI 断供中国大陆市场，零一万物 Yi API 二折平替 GPT-4o
Meta FAIR 发布 Meta Chameleon 新混合模态研究模型
昆仑万维发布 Q* 算法，百倍提升7B模型推理能力
字节跳动发布“豆包MarsCode”智能开发工具，面向国内开发者免费开放
钉钉宣布对所有大模型开放，6家大模型接入钉钉生态
牛津大学新研究提出“语义熵”方法助力人工智能减少“胡诌”
大模型“高考成绩”公布：豆包、文心一言等国产大模型冲上一本线
出门问问与腾讯云战略合作升级，共推 AIGC 应用落地
“多语种智能语音关键技术及产业化”项目获国家科技进步奖一等奖，由科大讯飞、中科大、清华、华为等联合完成
AI 将带动今年全球服务器 GPU 产值破千亿美元
2024全球人工智能技术大会在杭召开，20位院士齐聚杭州未来科技城

全球 AI 要闻

OpenAI 宣布首款适用于 Mac 的 ChatGPT 应用开放下载

OpenAI 宣布，其首款适用于苹果Mac电脑的 ChatGPT 聊天机器人应用正式面向所有用户开放下载。此前一个月，该应用一直处于测试阶段，仅Plus付费订阅用户可以使用。OpenAI 称，ChatGPT 的 Mac 应用旨在与用户日常操作无缝集成，其原生支持Mac系统，并提供方便的快捷键（Command + 空格键）允许用户随时随地启动应用。用户可以轻松与聊天机器人进行交互，并可选择将文件、照片和屏幕截图等附加到您的信息中，供 ChatGPT 使用这些素材进行理解和创作。该应用还支持“语音模式”，用户可以使用语音与 ChatGPT 进行交流。OpenAI 表示，将在未来几周内为Mac用户提供支持GPT-4o功能的新“语音模式”版本。（金融界）

为确保安全性，OpenAI 官宣推迟 ChatGPT 语音助手发布时间至下月

OpenAI 发表推文宣布，将推迟其备受瞩目的 ChatGPT 语音助手功能的发布，以确保其在面对数百万用户请求时的安全性和有效性。这一决定是在该公司5月份的 GPT-4o 产品发布会上首次公开语音功能之后作出的。GPT-4o 是 GPT-4 模型的升级版，它能够更高效地实时处理文本、音频和图像数据。

原本，OpenAI 计划在6月底向一部分付费的 ChatGPT Plus 用户推出这项语音功能，但为了满足更高的发布标准，公司决定将发布时间推迟一个月。OpenAI 此次在官方推文中表示，正在加强模型对某些内容的检测和拒绝的能力，并致力于改善用户体验，同时准备扩展基础设施以支持数百万用户，以及保持实时响应的能力。“作为迭代部署策略的一部分，我们将从一小群用户开始Alpha，以收集反馈并根据所学内容进行扩展。我们正计划让所有Plus用户在今年秋天都能使用。准确的时间表取决于满足我们的高安全性和可靠性标准。”

尽管这一推迟可能会对 OpenAI 在竞争激烈的 AI 领域中的领先地位造成一定的影响，但公司表示，他们正在不断努力，以确保新功能的质量和可靠性。

OpenAI 断供中国大陆市场，零一万物 Yi API 二折平替 GPT-4o

由李开复博士创立的AI大模型独角兽公司零一万物公司，发起“Yi API 二折平替计划”，面向 OpenAI 用户推出了平滑迁移至 Yi 系列大模型的服务。针对接入 OpenAI 的不同模型的用户，零一万物一一对应地提供了替换方案。

据零一万物介绍，目前注册使用 Yi API 的新客户，零一万物立即赠送 100 元额度；平台充值还将赠送 50% 到账额度，上不封顶；充值可获 RPM/TPM 限速直升 Tier3；此外，零一万物 API 还将提供 Prompt 兼容调优服务支持。

伯克利大学公开盲测 LMSYS 综合排名中，Yi-Large 在中国大模型中排名第一，在中文榜单上 Yi-Large 超过 GPT-4，与 GPT4o 并列排名世界第一（2024.6.25）；斯坦福评测机构 AlpacaEval 2.0 经官方认证的模型排行榜上，Yi-Large 的 LC Win Rate 高于 GPT-4（2024.6.25）；在 GPQA、HumanEval、MT-Bench、AlignBench 等权威评测集上，Yi-Large 得分高于 GPT-4（2024.5.12）。

Meta FAIR 发布 Meta Chameleon 新混合模态研究模型

Meta 官方宣布，Meta FAIR团队已发布了一个名为Meta Chameleon的新混合模态研究模型。

Meta Chameleon 具备 7B 和 34B 两个参数量版本，可以接受文本和图像的任意组合作为输入，并生成文本输出。该模型使用了一种新的早期融合方法，采用单一统一架构，而非传统的分离图像和文本编码器或解码器。该模型以研究许可的形式发布，旨在帮助民主化基础混合模态模型的访问，并进一步推动早期融合的研究。

Meta官方表示：“我们发布的7B和34B安全调整模型可以将任何文本和图像组合作为输入，并使用新的早期融合方法产生文本输出。虽然一些LLM有独立的图像和文本编码器或解码器，但Chameleon是使用单一统一架构的第一个公开发布的方法之一。”

模型下载链接：

http://go.fb.me/4m87kk

研究论文链接：

http://go.fb.me/u75dq8

昆仑万维发布 Q* 算法，百倍提升7B模型推理能力

昆仑万维携手新加坡南洋理工大学成功开发了名为 Q * 的算法，能够显著提升现有大模型的推理能力。Q * 在不同数据集上帮助小模型达到参数量比其大数十倍甚至上百倍模型的推理能力。

Q * 框架通过将大语言模型的推理轨迹分解为若干个状态，并利用 A * 搜索算法实现全盘规划，提升了开源模型在推理任务上的性能。目前，Q * 算法的研究仍处于初级阶段，但已经证明了其能够帮助参数量仅为 7B 的小模型达到与参数量大数十倍甚至上百倍模型相当的推理能力，大幅提升了模型的性能，并显著降低了计算资源的需求。

研究人员在论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》中提出了 Q * 框架，通过将大语言模型的推理轨迹分解为若干个状态，并利用 A * 搜索算法实现全盘规划，提升了开源模型在推理任务上的性能。

论文链接：

https://arxiv.org/abs/2406.14283

字节跳动发布“豆包MarsCode”智能开发工具，面向国内开发者免费开放

6 月 26 日，字节跳动在北京发布了基于豆包大模型打造的智能开发工具 - 豆包MarsCode ，面向国内开发者免费开放。

豆包MarsCode 产品负责人王海建介绍了豆包MarsCode 产品的两种形态——编程助手和 Cloud IDE，同时通过需求开发、修复Bug、开源项目学习三个实际场景，详细演示了豆包MarsCode 的项目问答、代码补全、单测生成、Bug Fix等功能。

豆包MarsCode 市场运营负责人赵旭东介绍了豆包MarsCode 开发者与社区共创计划。后续豆包MarsCode 会通过成立用户组、各类系列开发者活动等方式，助力开发者探索 AI 编程新范式。

据介绍，豆包MarsCode 用户组将由开发者自组织自运营，豆包MarsCode 团队不会参与到用户组的管理，但是会为用户组提供丰富的各类资源支持，支持各地用户组发展，例如场地资源、产品资源、活动物料、专家讲师支持等，帮助促进各地开发者更有效的探索AI编程新范式，助力开发者学习成长。在开发者活动方面，豆包MarsCode 将陆续在北、上、深、杭等的城市举办 Meetup。

豆包MarsCode 还计划协同各开发者社区，将 AI 能力融入到社区使用场景中，将豆包MarsCode 的能力更便捷的提供给开发者。目前，豆包MarsCode 已与掘金社区在 AI 助手、账号打通、专属沸点专区等层面合作。

使用链接：www.marscode.cn

钉钉宣布对所有大模型开放，6家大模型接入钉钉生态

6月26日，“Make 2024钉钉生态大会”在北京举办。会上，钉钉宣布对所有大模型厂商开放，构建中国最开放AI生态。除了通义大模型外，MiniMax、月之暗面、智谱AI、猎户星空、零一万物、百川智能六家大模型厂商已经与钉钉达成合作。目前，钉钉生态伙伴总数超过5600家，其中AI 生态伙伴已经超过100家；钉钉AI每天调用量超1000万次。

钉钉总裁叶军表示：“模型开放是钉钉生态开放战略的再进一步。随着行业从模型创新走向应用创新，探索大模型的应用场景是钉钉的责任所在。钉钉拥有大量企业客户，数据优势与场景优势叠加，和大模型之间彼此需要。另一方面，钉钉上的大企业客户也对模型开放提出要求。”目前，钉钉生态伙伴总数超过5600家；其中AI 生态伙伴已经超过100家，除了AI大模型生态伙伴外，还有AI Agent产品、AI解决方案、AI插件等不同领域的伙伴。

此次大会上，钉钉还宣布升级全局搜索能力，开启全新“钉钉 AI 搜索”的邀测。

牛津大学新研究提出“语义熵”方法助力人工智能减少“胡诌”

英国牛津大学研究团队开发出一种名为“语义熵”的新方法,有望大幅提升AI回答的可靠性。牛津大学计算机科学系的研究人员提出“语义熵”方法试图解决大语言模型“幻觉”这一问题。

该研究成果已发表在近期出版的英国《自然》杂志上。研究人员利用“语义熵”方法，让大语言模型对同一问题生成多个答案，然后将语义相近的答案聚类，最后根据聚类结果计算熵值。熵值越高，表示大语言模型的回答越不确定。这一方法不仅考虑了大语言模型回答的字面差异，更关注语义层面的一致性。这使得“语义熵”能够更准确地识别AI的“胡诌”，而不会被表达方式的多样性所迷惑。

研究结果表明，“语义熵”方法在多个数据集和任务中都表现出色，能有效检测大语言模型的错误回答，并通过拒绝回答不确定的问题来提高整体准确率。该方法无需修改AI模型本身，可直接应用于现有的大语言模型。

研究人员表示,“语义熵”技术有望在问答系统、文本生成、机器翻译等多个领域发挥重要作用，帮助AI生成更可靠、更有价值的内容。（新华社）

大模型“高考成绩”公布：豆包、文心一言等国产大模型冲上一本线

高考新课标Ⅰ卷全科目大模型评测报告数据显示，GPT-4o以562分排名文科总分第一，字节跳动旗下的豆包成绩是542.5分，其后依次是百度文心一言4.0的537.5分，以及百川智能“百小应”的521分。

本次大模型高考评测与河南省考卷完全相同。根据当天公布的河南高考录取分数线，文科本科一批录取分数线为521分，GPT-4o超出41分，豆包等三款国产AI也成功冲上一本线。而根据最新河南高考分数段统计数据，GPT-4o的562分在文科考生中排名8811名，相当于人类考生的前2.45%，豆包则处于前4.27%的位置。

百小应、字节豆包和腾讯元宝占据了文科前三的位置。豆包更是以平均分52分的成绩，拿下作文写作最高分。负责本次阅卷的北京市级骨干教师、怀柔区语文学科带头人夏老师指出，Al写出的文章大多有清晰完整的结构，有逻辑性，语言通顺流畅，但“其理性有余，感性不足，缺乏感情色彩，自然就缺乏感染力”，这成为大模型在语文科目中进一步提升的关键所在。

英语考试中，GPT-4o、百小应、通义千问等甚至获得了80分的满分，豆包和文心4.0也接近满分。但在40分的写作考试中，最高分仅为29分，由 GPT-4o 和百小应获得。大模型的英语写作主要在表达的丰富度和细节处理上有所欠缺。

在由历史、地理、政治组成的文综考试中，GPT-4o 以237分的总成绩展现出了较强的综合能力，平均得分达到79分，超越了多数人类考生。在政治考试中，GPT-4o凭借88分的高分令人意外地夺魁。而地理考卷由于存在大量图片问题，最终图像理解能力较强的 GPT-4o 获得了最高分，但也仅有68分。

在数学考试中，9款大模型产品中仅有GPT-4o、文心一言 4.0 和豆包获得60分以上的成绩（满分150分）。据测试机构透露，豆包等大模型能准确运用求导公式和三角函数定理，但在面对较为复杂的推导和证明问题时，往往难以得分。在回答数学题目时，大模型的主观题出现回答相对凌乱的情况，甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强，但无法在解题过程中灵活应用。

在化学和物理考试中，平均分数分别只有34分和39分。化学单项最高分49.5分由豆包获得，而GPT-4o仅有42分。在物理考试中，一道基于常识“时间不会倒流”就能轻易排除错误选项的送分题，大模型却几乎全军覆没，凸显了大模型在应对考试灵活性方面的不足。（极客公园）

出门问问与腾讯云战略合作升级，共推 AIGC 应用落地

6月25日，出门问问与腾讯云宣布战略合作升级，双方将充分发挥腾讯云在云计算、人工智能等领域的技术优势，以及出门问问在大模型、生成式AI与语音交互等领域的技术积累，在人工智能领域内就云服务、生态、品牌营销等方面持续深化合作，共同探索生成式AI与语音交互技术的创新发展，深入探索AIGC的多样化应用场景，推进大模型在垂直行业的应用落地。

目前，出门问问 AIGC 产品累计服务的用户数量已超 1500 万，注册用户数量超 1000万，其中付费的用户数量约 86.5 万。

“多语种智能语音关键技术及产业化”项目获国家科技进步奖一等奖，由科大讯飞、中科大、清华、华为等联合完成

6月24日，2023年度国家科学技术奖在京揭晓。由科大讯飞股份有限公司牵头，联合中国科学技术大学、清华大学、华为终端有限公司、中移（杭州）信息技术有限公司等高校及行业企业联合完成的“多语种智能语音关键技术及产业化”项目荣获2023年度国家科技进步奖一等奖。

据了解，多语种智能语音技术对于支撑人机交互、人类语言互通等需求具有重大战略意义，具有十分广阔的产业前景。科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法，实现语音信号中内容、噪声等高度耦合的多维属性特征解耦，使得复杂场景下语音识别准确率得到提升。

为解决复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题，科大讯飞提出语音语义互增强的鲁棒口语理解技术,提升语音交互、语音翻译等复杂场景的语义理解准确率；提出多源知识增强的可信文本生成技术，提升专有词汇及领域知识引用的准确率。（经济日报）

AI 将带动今年全球服务器 GPU 产值破千亿美元

DIGITIMES 研究中心6月25日发布报告指出，2024年全球服务器用 GPU（包括存储芯片在内的板卡与子系统）产值将首次突破1000亿美元，达1219亿美元。其中，高端服务器GPU产值比重将超过80%，达1022亿美元，出货量可达482万颗，英伟达将占比92.5%，AMD 占比可达7.3%。

2024全球人工智能技术大会在杭召开，20位院士齐聚杭州未来科技城

6月22日至23日，2024全球人工智能技术大会在杭州未来科技城举行。这是中国人工智能学会三大品牌活动之一，是我国人工智能技术和产业领域规模最大、影响力最强的千人级专业会议之一。今年是大会连续第5年落户杭州未来科技城，包括20余位中外院士在内的200多位专家学者齐聚一堂，交流最新科研突破与进展，深化产学研用一体化合作，加快发展新一代人工智能。

会上，中国人工智能学会科技成果转移转化杭州基地揭牌仪式、第二届涿溪实验室科技成果转化项目落地签约仪式、全球人工智能技术创新大赛算法挑战赛一等奖颁奖仪式、中国人工智能学会-昇思 MindSpore 学术基金优秀项目颁奖仪式等在大会开幕式上相继举行。

由 CSDN 和 Boolan 联合主办的「2024 全球软件研发技术大会（SDCon）」将于 7 月 4 - 5 日在北京威斯汀酒店举行。

由世界著名软件架构大师、云原生和微服务领域技术先驱 Chris Richardson 和 MIT 计算机与 AI 实验室(CSAIL)副主任，ACM Fellow Daniel Jackson 领衔，BAT、微软、字节跳动、小米等技术专家将齐聚一堂，共同探讨软件开发的最前沿趋势与技术实践。

大会官网：http://sdcon.com.cn/（可点击阅读原文直达）