Datawhale AI冬令营(第一期)--- 1.1 零基础定制你的专属大模型

   日期:2024-12-26    作者:q1arf 移动:http://mip.riyuangf.com/mobile/quote/52723.html

主要学习了使用讯飞开放平台免费定制了一个基于《甄嬛传》剧本中的甄嬛台词 ,通过五个简单的步骤,不写一行代码,打造一个模仿甄嬛语气、风格的专属聊天模型—— Chat-嬛嬛 。

微调的数据集是定制大模型的关键
影响模型最后效果的最大难点问题在于复杂的 清洗数据、处理、生成数据、归类数据 上

本次使用的数据集格式 — Alpaca格式
  1. 字段说明
    (1instruction:任务的指令,模型需要完成的具体操作,一般可以对应到用户输入的 Prompt 。
    (2input:任务所需的输入内容。若任务是开放式的,或者不需要明确输入,可以为空字符串。
    (3output:在给定指令和输入的情况下,模型需要生成的期望输出,也就是对应的正确结果或参考答案。

  2. 样例数据

 
  1. 特点与应用 :结构简单清晰,易于理解和处理。它明确地将任务指令和输入内容分离开来,能够很好地适用于各种自然语言处理任务,像文本生成、翻译、总结等任务,尤其适合单轮的、以任务为导向的指令微调任务。

注意:还有其他的数据格式,比如:ShareGPT 、jsonl、csv、文生图数据和图像分类数据等格式

详细说明可见大模型微调平台数据集格式说明

Step1:注册登录讯飞星辰MaaS

Step2:下载数据集

数据集下载链接

Step3:定制专属嬛嬛大模型


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号