当前位置:首页 > 股票资讯 - 正文

陈的最新论文:受-3的启发,使用小样本学习来微调语言模型,性能可以提高30% 雏鹰农牧股票

样本,模型,性能,语言,学习,论文,最新,陈的,30时间:2021-03-18 19:37:02浏览:115
后台-插件-广告管理-内容页头部广告位(手机)

原标题:陈最新论文:受-3启发,用小样本学习微调语言模型,性能高达30%

鱼和羊来自奥菲寺

量子报告| QbitAI,微信官方账号

2020年,GPT 3号将全面展开。

不仅讲故事的工作蓬勃发展,而且还玩网页设计、操作和维护,以及跨国下棋...

然而,尽管性能惊人,GPT 3号有1750亿个参数,在实际应用场景中着陆并不困难。

现在,为了解决这个问题,普林斯顿的陈、高天宇和麻省理工学院的博士生亚当·菲舍尔在最新的论文中提出,应该使用更小的语言模型,并使用少量样本来微调语言模型的权重。

此外,实验表明,该方法的性能比普通的微调方法提高了30%。

详情一起往下看。

方法原理

首先,研究人员采用了基于提示的预测路线。

所谓基于提示的预测,就是把下游的掩码看作是一个被屏蔽的语言建模问题,模型会直接为给定的提示生成文本响应。

这里要解决的问题是找到正确的提示。这不仅需要该领域的专业知识,还需要了解语言模型的内部工作原理。

本文研究人员提出引入一种新的解码目标来解决这个问题,即使用Google提出的T5模型在指定的小样本训练数据中自动生成提示。

其次,研究人员在每个输入中添加了额外上下文形式的示例。

问题的关键在于对信息量大的例子考虑有限。一方面,可用例子的数量会受到模型最大输入长度的限制;另一方面,大量不同类型的随机例子混合在一起,导致上下文过长,不利于模型学习。

因此,研究人员开发了一种动态的选择性精细策略:对于每个输入,从每个类别中随机选择一个样本,以创建一个多样化的最小演示集。

此外,研究人员还设计了一种新的采样策略,将输入与相似的样本进行匹配,为模型提供更有价值的比较。

实验结果

那么,这样的小样本学习方法能达到什么效果呢?

研究人员系统地评估了8个单句和7个句子的自然语言处理任务,包括分类和回归。

结果表明:

基于Tip的微调在很大程度上优于标准微调。 自动提示搜索可以匹配甚至超越手动提示; 添加示例对于微调是有效的,并且用很少的样本提高了学习的性能。

在K=16的条件下(即每类样本数为16),从上表的结果可以看出,该方法在所有任务中的平均性能增益为11%,明显优于标准微调程序。在SNLI任务中,提升达到30%。

但是这种方法仍然存在明显的局限性,其性能仍然远远落后于大量样本训练得到的微调结果。

关于作者

有两份文件在一起工作。

清华大学本科生特聘奖学金获得者高天宇,本科期间发表四篇顶级论文,师从清华大学物理实验室刘致远副教授。

今年夏天,本科毕业后,他去普林斯顿读博士,师从另一位作家陈。

之前,qubit分享过自己写论文,做实验,和导师相处的经历。

Adam Fisch博士,麻省理工学院电气工程与计算机科学专业,是CSAIL和NLP研究组成员,主要研究兴趣为迁移学习和应用于NLP的多任务学习。

他毕业于普林斯顿大学,2015年至2017年在Facebook AI研究院担任研究工程师。

至于陈,我想大家都已经熟悉他了。她毕业于清华大学姚班分校,随后在斯坦福大学获得博士学位。2019年秋,她成为普林斯顿大学计算机科学系的助理教授。

最后,论文的代码即将开源。想了解论文更多细节,请阅读论文末尾的论文链接~

入口

论文地址:

https://arxiv.org/abs/2012.15723v1

项目地址:

https://github.com/princeton-nlp/LM-BFF

-结束-

本文是网易新闻网易特别内容奖励计划签约账号【qubit】的原创内容,未经账号授权,禁止随意转载。

加入AI社区,和优秀的人一起走

量子比特qbitai标题号签名作者

跟踪人工智能技术和产品的新发展

一键三环“分享”“喜欢”“观看”

科技前沿进步天天见面~回搜狐多看

负责编辑:


以上就是陈的最新论文:受-3的启发,使用小样本学习来微调语言模型,性能可以提高30%雏鹰农牧股票的全部内容了,喜欢我们网站的可以继续关注颖倩股票网其他的资讯!
后台-插件-广告管理-内容页底部广告位(手机)