通达信开发接口-对Zeroshot与InContext Learning的若干思考

先说Zero-shot、One-shot和few-shot

而one-shot、few-shot可以变相理解为使用一个/多个example微调模型，但微调模型不保存。每次提供inference都需要微调，Nogradientupdatesareperformed.也就是说，提供inference的模型参数保持不变，但这实际上是tuning的范畴。

单次微调，参数更新，但微调后模型不保存。

需要注意的是，如果把zeroshot和其他区别分成这个模型，你是否见过标记样本，那就是你主要见过它，无论是在推理阶段使用【不更新梯度】，还是在finetune阶段加入培训【更新参数】，肯定不是zero。-shot，否则就是数据泄漏。

定义任务要素：

我们发现，引入incontext-learning的想法，作为fewshot任务来提高chatie模型的性能，可能是个好主意。在此基础上，对开源项目的解释可以增强理解。

对Zeroshot与InContext Learning的若干思考

LLM很难更新，因为它有很多参数。因此，很少对训练有素的LLM进行微调。然而，为了在特殊任务中表现良好，但不固定微调模型，提出了one-shot、few-shot通过添加偏置来影响模型的最终输出。

如果训练集中，只有一个不同类别的样本，它将成为One-shot，属于few-shot的特殊情况。

如果不更新参数，这种学习是瞬间的，不构成领域。预训练模型本身训练后有一套参数。finetune是在预训练的基础上继续训练的，肯定会有梯度更新，因为finetune之后参数会变，参数变了梯度必然会更新。直接推理答案，后台梯度不更新。

也就是说，如果在prompt中添加一个或多个正确的例子，例如在分类任务中添加一些正确的任务描述例子，则不能视为zero-shot，但问题是，如何确保模型培训没有使用这些数据，他们可能会收集当时的培训，模型可能已经看到了，也就是说，至少没有严格的嘴。

从ChatIE：伪zero-shotprompt面向REEENER三个任务

最近有一篇文章《Zero-ShotInformationExtractionviaChattingwithChatGPT》有趣的是，该工作将零样本IE任务转换为两阶段框架的多轮问答问题，并广泛评估了三个IE任务中的框架：实体关系三元组提取、命名实体识别和事件提取。六个数据集的实验结果表明，Chatie取得了非常好的效果，甚至超过了几个数据集的全监督模型。

如果训练集中，不同类别的样本只有少量，就会变成few-shot，若参加培训学习，也只能使用较少的样本数。

也就是说，只有推理阶段，没有训练阶段。这在chatgpt中很常见，基于训练有素的大模型，直接通过问题prompt进行预测。

不直接微调，参数不直接更新

Zero-shot、One-shot和few-shot让人傻傻的分不清，看了很多文章，也没搞清楚他们的区别，到底什么叫zero？-shot，nogradientupdate在应用过程中的含义是什么？zero-shot是否是一个伪命题已经成为一些有趣的问题。

但其中“nogradientupdate令人费解”，后来想了想，有两种理解：

实现的基本原则是制定任务实体关系三元组提取、命名实体识别和事件提取，并为每个任务设计两步prompt-pattern，第一步是识别类型，第二步是识别指定类型的值。填写提取的任务定义，然后调用chatgpt接口，在获得结果后进行规则分析，并结构化相应的答案。

Few-shot与One-shot

文章为作者独立观点，不代表股票交易接口观点