欢迎光临
我们一直在努力
您的位置:首页>资讯 >

Facebook的AI无需额外培训即可加速自然语言处理

自然语言模型通常必须解决两个难题:将句子前缀映射到固定大小的表示形式,以及使用这些表示形式预测文本中的下一个单词。在最近的一篇论文中,Facebook AI Research的研究人员断言,第一个问题-映射问题-可能比预测问题更容易。预测问题是他们基于“最近邻居”检索机制来扩充语言模型的假设。他们说,它可以记住稀有模式,并且无需额外培训即可达到最先进的复杂性评分(衡量词汇和语法多样性)。

正如研究人员所解释的那样,语言模型将概率分配给单词序列,从而使它们根据标记(例如单词)的上下文序列来估计目标标记的分布(发生不同可能结果的概率)。所提出的方法-kNN-LM-将上下文映射到由预训练语言模型计算的定长数学表示形式。给定一个训练示例,定义了一个键值对,其中键是上下文的数学表示,而值是目标单词。

在测试时,kNN-LM获取输入上下文,并在接下来的单词和上下文表示上生成输出分布。它根据距离函数检索最近的邻居,此时它计算邻居上的分布,同时汇总每个词汇项在检索到的目标中所有出现时的概率。

研究人员指出,kNN-LM与产生固定大小的上下文表示的任何语言模型兼容。在这项研究中,这使我们能够在包含Wikipedia文章中的1.03亿个令牌的数据集上训练基于Transformer的模型,其中25万个令牌保留用于开发和测试。

在实验中,kNN-LM在测试时“显着”优于基线,该团队将其归因于其学习隐含相似性概念的上下文表示功能的倾向。kNN-LM增加了一些计算开销–在单个处理器上花了大约两个小时才能为1.03亿个条目建立缓存,而运行验证集大约需要25分钟。但是该团队指出,并行化模型是“简单的”,并且不需要基于GPU的培训。

该研究的共同作者写道:“总的来说,我们发现kNN-LM最有用的例子通常都包含罕见的模式。”“示例包括事实知识,姓名和训练集中几乎重复的句子。在这些情况下,为训练实例和测试实例分配相似的表示形式……比隐式记住模型参数中的下一个单词似乎更容易解决问题。”

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。