模型部署可以为您创建专属的推理服务。本文介绍了模型部署的基本概念、使用方法和配置指南,帮助您为大语言模型配置专属的模型推理服务。
简单来说,是指将大模型运行在专属的计算资源上,使模型在独立的运行环境中高效、可靠地运行,并为业务应用提供推理服务。
支持预置模型和自定义模型,对比如下:
阿里云百炼支持两种方式:百炼控制台(0代码)和API(全代码)。两种部署方式完全等价,您可以根据业务需求决定部署方式。
除了在控制台操作,百炼支持通过 HTTP 请求执行模型部署。以下是简洁的操作指南:
前提准备
获取 API-KEY:确保已获取并配置好 API-KEY,参考及。
常见操作步骤
列举可部署模型
获取可部署模型列表:
返回示例:
:模型名称
:每个实例需要的最小算力单元数量
创建部署任务
部署模型:
:待部署的模型
:分配的算力单元,需为 () 的整数倍
(可选):用于区分多个部署任务
查询部署任务状态
查看某个任务的状态:
调用部署任务
使用已部署模型:
更新部署任务(可选)
动态调整部署任务的算力单元,实现扩缩容:
查询所有部署任务(可选)
查看所有任务状态:
删除部署任务(可选)
下线已部署模型:
支持的模型列表以控制台为准,如您有疑问请访问页面获取帮助。
如您希望了解计费信息,请访问。
如您希望了解API详情,请访问。
如您希望评测模型微调的效果,请访问。
可以上传和部署自己的模型吗?
暂不支持上传和部署自有模型,建议您持续关注百炼最新动态。此外,阿里云人工智能平台 PAI 提供了部署自有模型的功能,您可以参考了解部署方法。
如何大幅提高模型并发量呢?
如果您需要进一步提高模型的RPM或TPM,请通过邮箱申请,告知uid、期望申请的模型和RPM和TPM,请邮件联系:modelstudio@service.aliyun.com。