官方教程|CPM

5月27日百亿参数中英双语基座模型 CPM-Bee 开源之后,在GitHub反响热烈,一度登上总榜第四、Python榜第三。

CPM-Bee 是一个基座模型,其开源的核心目的是更广泛地支持各种 NLP 应用场景,让大家可以自由地进行适配。我们在预训练的时候采用了一些特殊设计,所以它现在的输出比较稳定。如果在合适的数据上进行指令微调,CPM-Bee 会输出更高质量和有信息量的内容。

当然,有很多社区的朋友希望我们出模型的具体微调教程,我们决定首先推出 CPM-Bee基础微调教程。

CPM-Bee 数据格式介绍

CPM-Bee 基座模型可以将多种自然语言处理任务统一用生成的方式解决。CPM-Bee 采用特殊的多任务预训练模式,所有的数据都统一用一个字典来管理。我们可以任意设计字典中的键值对来表达我们希望模型做的事情,同时预留一个字段,用于存储模型给出的答案。注意,字段是必需的,基本格式如下:

尽管输入数据的格式是任意的,但由于模型在预训练阶段使用了有限的几种数据格式,我们建议您在使用CPM-Bee推理时尽量使用这些参考格式。

文本生成

input字段用于填写上下文,它并不是唯一的,您可以使用"source", "document", "query", "text", "文章", "文档", "原文", "输入", "context", "上下文"等类似的键来替换。

prompt字段用来给出一些提示和指定任务,该字段并不是必需的,但是我们建议您使用合理的 prompt 来更好地驱动模型。prompt也可以被"hint", "task", "prompt", "任务", "提示", "目标", "target"等替换。请注意,prompt 一般会提供一些控制信息,如"往后写xxx字","中翻英","给这段话生成摘要"等。

翻译

CPM-Bee目前支持中英互译。prompt一般可选"中翻英"/"英翻中","中译英"/"英译中","把文章翻译为英文"/"把文章翻译为中文","Translate from English to Chinese"等。

问答选择题

options可以等价替换为"answers", "candidates", "选项"...

命名实体识别

以上是一些常见的任务的数据格式。请注意里面用到的字段不是严格限定的,您可以做一些近似语义的替换,比如把"中翻英"替换为"把这段话翻译成英文"。您也可以在微调时自由设计数据格式,例如,当您希望微调一个对话模型,您可以构造数据格式为

您也可以不使用,如下格式也可以:

总之,您可以灵活定义您的数据格式。

微调流程

本教程将以一个序列-序列任务为例介绍对 CPM-Bee 基座模型的微调。这里我们选择的任务需要将一句白话文“翻译”成一句古诗。首先,微调需要准备原始数据,格式如下:

放置在路径src/ccpm_example/raw_data/下;

准备模型的checkpoint,放在路径src/ckpts/pytorch_model.bin下,可在此


比丘资源网 » 官方教程|CPM

发表回复

提供最优质的资源集合

立即查看 了解详情