视学算法：Meta发布首个非参数化掩码语言模型NPM

近年来，大型语言模型在自然语言处理领域取得了显著进展，但其训练成本高昂、难以更新，同时在处理长尾知识和罕见短语方面表现欠佳。这些模型通常采用预测层中的softmax层，限制了其输出词汇的多样性。为了解决这些问题，研究人员联合提出了一种新型模型——非参数化掩码语言模型（NonParametric Masked language model, NPM）。

NPM的核心思想

NPM通过参考语料库中的非参数化分布来代替传统的softmax输出层，从而实现对任意长度短语的无限制预测。这种方法不仅能够有效处理罕见短语和长尾知识，还能预测几乎未见过的外部语言（如韩语单词）。

NPM的训练与推理

编码器的作用

NPM由一个编码器组成，该编码器将语料库中的所有短语映射到一个密集的向量空间中。在推理阶段，编码器将带有[MASK]的查询向量映射到相同的向量空间，并从语料库中检索出对应的短语填充[MASK]。

推理的实现

为了提高检索效率，研究人员采用了基于k近邻搜索（kNN）的批内近似方法。例如，对于一个由4个BPE token组成的短语（如The Thessaloniki），分别从起点和终点向量进行k近邻搜索，检索出最接近的短语开始和结束，从而填充[MASK]。

训练难点

NPM在训练过程中面临两个关键问题：

检索效率：完整语料库的检索会耗时耗力。研究人员通过批内近似方法，将检索目标限定在批次内的其他序列中。

片段掩码：研究人员扩展了传统的span masking策略，引入了[MASKs][MASKe]，以便更方便地检索和填充片段的起点和终点向量。

实验结果

NPM在多个基线模型上展现出优越性能，包括RoBERTa、GPT-3和OPT 13B等。无论是闭包任务还是开放式任务，NPM都能显著提升预测效果。例如，在情感分析任务中，NPM成功区分了“廉价”和“质量差”的含义，这表明其非参数训练与对比性目标的有效性。

总结

NPM通过非参数化掩码预测，打破了传统语言模型的输出限制，为处理长尾知识和罕见短语提供了新的解决方案。尽管其训练和检索过程仍面临挑战，但其在零样本和无样本任务中的表现令人瞩目。未来，NPM有望在更多应用场景中展现其潜力。

转载地址：http://ogrfk.baihongyu.com/

你可能感兴趣的文章