首页系统综合问题阅读理解得分超越人类:谷歌推出最强预训练语言理解模型BERT

阅读理解得分超越人类:谷歌推出最强预训练语言理解模型BERT

时间2023-01-26 23:28:54发布分享专员分类系统综合问题浏览259

今天小编给各位分享language的知识,文中也会对其通过阅读理解得分超越人类:谷歌推出最强预训练语言理解模型BERT和春节在家不再无聊,这份2019 AI研究进展回顾陪伴你等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现在进入正文!

内容导航:

  • 阅读理解得分超越人类:谷歌推出最强预训练语言理解模型BERT
  • 春节在家不再无聊,这份2019 AI研究进展回顾陪伴你
  • BERT预训练模型
  • 一文看尽2018全年AI技术大突破:NLP跨过分水岭、CV研究效果惊人
  • 一、阅读理解得分超越人类:谷歌推出最强预训练语言理解模型BERT

    近日,谷歌提出了一个新的预训练语言模型 BERT,该模型横扫 11 项不同的自然语言处理任务,并在 SQuAD v1.1 的阅读理解任务上超越人类两个百分点。

    该模型究竟有哪些创新?有为什么会有如此突出的效果呢?这一切需要从语言模型讲起。

    语言模型 (Language Model) 通过在大规模数据上完成特定的任务来建立,在自然语言处理领域拥有里程碑式的地位。在之前的工作中,其在训练过程中设定的任务一般是给定文本中已出现词语,预测下一个单词。这可以算是最简单的语言处理任务,但通过针对这一目标的训练,模型可以把握词语的含义等语言特性。

    语言模型的建立是一种无监督学习,因此可以利用现实世界大规模无标注的语料数据。尽管其概念十分简单,但却与其后自然语言处理领域的许多重要进展息息相关,例如词向量、序列到序列的学习。

    目前,语言模型在自然语言处理领域的重要应用方向是,通过迁移学习与特定的任务结合。即首先在大规模语料上预训练语言模型,再在其基础上根据具体任务进行进一步处理。结合方式主要有两种:第一种是 feature-based,也就是利用预训练的语言模型获得特征向量,将其用于具体任务。第二种则是 fine-tuning,在预训练的语言模型基础上稍作改变,根据具体任务引入新的结构和参数,再次进行训练。通过与预训练语言模型的结合,许多原有的模型在任务上的效果进一步提升。这其实很好理解——以阅读理解为例,人类在做一道阅读理解题目时,并不仅仅从这一篇文章,以及类似的阅读理解任务(训练集)中学习,而是会使用在此之前积累的各项知识。大规模语料预训练的语言模型正提供了这种知识的积累。

    BERT 也是一个语言模型,其基本结构由多层的双向 Transformer 组成。Transformer 是谷歌 2017 年发表的的著名论文《Attention is all you need》中提出的架构,在机器翻译任务上取得了非常好的效果。Transformer 舍弃了以往该任务上常用的 CNN、RNN 等神经网络结构,利用自注意力机制将文本中的上下文内容联系起来,并行处理序列中的单词符号。这样的结构使训练速度显著提升,效果也更为优秀。目前这一结构已经被广泛应用。

    图 | 预训练语言模型间的差异 BERT 的 Transformer 使用了双向的自注意力机制(self-attention),OpenAI GPT 使用的是由左到右的 Transformer。ELMo 则使用了两个不同方向的 LSTM,将其输出结果拼接在一起。(来源:arXiv)

    BERT 中,每个 token 的输入向量由三部部分组成:token embeddings、segment embeddings、position embeddings,如下图所示。

    图 | BERT 输入的表示(来源:arXiv)

    其中,token embeddings(上图中黄色部分)表示 token 的含义;segment embeddings 表示 token 所属的部分(上图中绿色部分。每个词语属于 A 或 B);position embeddings 表示 token 在序列中所处的位置(上图中灰白色部分)。[CLS] 标志序列的开始,在分类任务中具有重要的作用。[SEP] 出现在句子末尾,用来标注序列中不同的句子。

    这样特别的输入与 BERT 的训练目标有关,与以往语言模型不同的训练目标也正是其强大性能的来源。BERT 设立了两个训练目标:MLM(Masked Language Model,马赛克语言模型)和预测下一个句子。

    Task1——Masked Language Model

    之前提出的语言模型在预测单词时大多是单向的,即依次通过左侧(右侧)出现的词语预测下一个词语。这样的逐个对词语进行预测无法双向进行,否则模型就可以“看到答案”。但我们知道,对语言的理解不应仅仅是单向的,一个词语的含义与其之前和之后出现的词语都紧密相关。为了达到双向理解的目的,BERT 随机为句子中的一些词语打上马赛克,用 [MASK] 进行替换,在训练的过程中对这些被遮盖的词语进行预测。在本论文中,研究人员随机遮盖了 15% 的词语。

    不过,这样的做法又会带来一些问题,因为这些被遮盖的词语相当于从数据集中被抹去,再也不会出现了。为了解决这一问题,研究人员又对这些随机抽取的词语进行了三种不同的处理:

    80% 的情况下用 [MASK] 替换:my dog is hairy——> my dog is [MASK]

    10% 的情况下,使用其他词语随机替换:my dog is hairy——> my dog is apple

    10% 的情况下保持不变:my dog is hairy——> my dog is hairy 这也可以保证模型预测的结果偏向正确结果。

    Task2——Next Sentence Prediction

    问答和自然语言推理任务都需要理解句子之间的关系,而这无法由语言模型直接建模。为此,研究人员引入了二值任务:预测下一个句子。

    图 | Next Sentence Prediction(来源:arXiv)

    每个输入序列中包含不同的句子 A 与 B。在 50% 的数据中,B 为 A 的下一个句子,另外 50% 的数据中句子 B 不是 A 的下一个句子,而是从文本中随机抽取的。训练的过程中,模型对标签进行预测,从而对句子之间的关系建模。训练后模型判断的准确性达到 97%-98%。

    BERT 在 BooksCorpus 和英文维基百科组成的大规模语料上进行预训练。预训练后,模型通过 fine-tuning 的方式与具体任务结合,在 11 个自然语言处理任务上超越了之前的最佳结果。

    图 | GLUE 测试结果,由 GLUE evaluation server 评测(来源:arXiv)

    GLUE(General Language Understanding Evaluation)是一系列自然语言处理任务的集合。其中包含的数据集大多已经存在多年,而 GLUE 将其划分为训练集、测试集和验证集,并建立了测评服务以缓解测评机制不一致和测试集的过拟合问题。GLUE 不公布测试集答案,使用者需要提交自己的预测结果进行测评。如下图所示,BERT 在 GLUE 的各项任务上均取得了最佳结果。而图中显示的仅仅是 BERT 在单个任务上进行训练的结果。若模型进行多任务的联合训练,效果还会进一步提升。

    图 | BERT 在 SQuAD v1.1 上的实验结果(来源:arXiv)

    SQuAD v1.1 是斯坦福公开的阅读理解问答数据集。该数据集上的任务为,给定一段文本和一个问题,需要从文本中摘取一个片段作为问题的答案。在这一任务上,BERT 不仅超越了之前提交的各个模型的最好成绩,其 F1 值更比人类的表现高出两个百分点。

    除此之外,BERT 还在命名实体识别等任务上取得了更好的结果。BERT 在各项任务上的应用也不仅仅局限于 fine-tuning 的方式,还可以通过 feature-based 的方式结合。谷歌将在 10 底前公开模型的训练代码和预训练模型。

    虽然 BERT 已经在多项任务上展现了其强大的威力,但未来仍需更多工作进行进一步探索。它究竟把握住了语言中的哪些特性?又遗漏了什么?这些问题的研究将帮助我们完善这一语言模型,推进对语言更深层次的理解。

    一、春节在家不再无聊,这份2019 AI研究进展回顾陪伴你

    2019 年可以说是「预训练模型」流行起来的一年。自 BERT 引发潮流以来,相关方法的研究不仅获得了 EMNLP 大会最佳论文等奖项,更是在 NLP、甚至图像领域里引领了风潮。

    去年也有很多 游戏 AI 取得了超越人类的水平。人工智能不仅已经玩转德州扑克、星际争霸和 Dota2 这样复杂的 游戏 ,还获得了 Nature、Science 等顶级期刊的肯定。

    机器之心整理了去年全年 在人工智能、量子计算等领域里最为热门的七项研究 。让我们以时间的顺序来看:

    第一个重磅研究出现在 2 月,继发布刷新 11 项 NLP 任务记录的 3 亿参数量语言模型 BERT 之后,谷歌 OpenAI 于 2019 年 2 月再次推出了一种更为强大的模型,而这次的模型参数量达到了 15 亿。这是一种 大型无监督语言模型 ,能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。此外,在没有任务特定训练的情况下,该模型能够做到初步的阅读理解、机器翻译、问答和自动摘要。

    该模型名为 GPT-2,它是基于 Transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。训练 GPT-2 有一个简单的目标:给定一个文本中前面的所有单词,预测下一个单词。GPT-2 是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。

    GPT-2 展示了一系列普适而强大的能力,包括生成当前最佳质量的条件合成文本,其中我们可以将输入馈送到模型并生成非常长的连贯文本。此外,GPT-2 优于在特定领域(如维基百科、新闻或书籍)上训练的其它语言模型,而且还不需要使用这些特定领域的训练数据。在 知识问答、阅读理解、自动摘要和翻译等任务 上,GPT-2 可以从原始文本开始学习,无需特定任务的训练数据。虽然目前这些下游任务还远不能达到当前最优水平,但 GPT-2 表明如果有足够的(未标注)数据和计算力,各种下游任务都可以从无监督技术中获益。

    最后,基于大型通用语言模型可能会产生巨大的 社会 影响,也考虑到模型可能会被用于恶意目的,在发布 GPT-2 时,OpenAI 采取了以下策略: 仅发布 GPT-2 的较小版本和示例代码,不发布数据集、训练代码和 GPT-2 模型权重

    机器学习顶会的最佳论文,总会引起人们的广泛讨论。在今年 6 月于美国加州举办的 ICML 2019(国际机器学习大会)上,由苏黎世联邦理工学院(ETH)、德国马普所、谷歌大脑共同完成的《Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations》获得了其中一篇最佳论文。研究者在论文中提出了一个与此前学界普遍预测相反的观点:对于任意数据,拥有相互独立表征(解耦表征)的无监督学习是不可能的。

    论文链接:

    在这篇论文中,研究者冷静地审视了该领域的最新进展,并对一些常见的假设提出了质疑。

    首先,研究者表示从理论上来看,如果不对模型和数据进行归纳偏置,无监督学习解耦表征基本是不可能的;然后他们在七个不同数据集进行了可复现的大规模实验,并训练了 12000 多个模型,包括一些主流方法和评估指标;最后,实验结果表明,虽然不同的方法强制执行了相应损失「鼓励」的属性,但如果没有监督,似乎无法识别完全解耦的模型。此外,增加的解耦似乎不会导致下游任务学习的样本复杂度的下降。

    研究者认为,基于这些理论,机器学习从业者对于超参数的选择是没有经验法则可循的,而在已有大量已训练模型的情况下, 无监督的模型选择仍然是一个很大的挑战

    去年 6 月,来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的研究者发表了一篇名为《Weight Agnostic Neural Networks》的论文,进而引爆了机器学习圈。在该论文中,他们提出了一种神经网络架构搜索方法, 这些网络可以在不进行显式权重训练的情况下执行各种任务

    论文链接:

    通常情况下,权重被认为会被训练成 MNIST 中边角、圆弧这类直观特征,而如果论文中的算法可以处理 MNIST,那么它们就不是特征,而是函数序列/组合。对于 AI 可解释性来说,这可能是一个打击。很容易理解,神经网络架构并非「生而平等」,对于特定任务一些网络架构的性能显著优于其他模型。但是相比架构而言,神经网络权重参数的重要性到底有多少?

    来自德国波恩-莱茵-锡格应用技术大学和谷歌大脑的一项新研究提出了一种神经网络架构搜索方法,这些网络可以在不进行显式权重训练的情况下执行各种任务。

    为了评估这些网络,研究者使用从统一随机分布中采样的单个共享权重参数来连接网络层,并评估期望性能。结果显示,该方法可以找到少量神经网络架构,这些架构可以在没有权重训练的情况下执行多个强化学习任务,或 MNIST 等监督学习任务。

    BERT 带来的影响还未平复,CMU 与谷歌大脑 6 月份提出的 XLNet 在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果。

    来自卡耐基梅隆大学与谷歌大脑的研究者提出新型预训练语言模型 XLNet,在 SQuAD、GLUE、RACE 等 20 个任务上全面超越 BERT。

    作者表示, BERT 这样基于去噪自编码器的预训练模型可以很好地建模双向语境信息,性能优于基于自回归语言模型的预训练方法 。然而,由于需要 mask 一部分输入,BERT 忽略了被 mask 位置之间的依赖关系,因此出现预训练和微调效果的差异(pretrain-finetune discrepancy)。

    基于这些优缺点,该研究提出了一种泛化的自回归预训练模型 XLNet。XLNet 可以:1)通过最大化所有可能的因式分解顺序的对数似然,学习双向语境信息;2)用自回归本身的特点克服 BERT 的缺点。此外,XLNet 还融合了当前最优自回归模型 Transformer-XL 的思路。

    延伸阅读:

    2019 年 7 月,在无限制德州扑克六人对决的比赛中,德扑 AI Pluribus 成功战胜了五名专家级人类玩家。Pluribus 由 Facebook 与卡耐基梅隆大学(CMU)共同开发,实现了前辈 Libratus(冷扑大师)未能完成的任务,该研究已经登上了当期《科学》杂志。

    据介绍,Facebook 和卡内基梅隆大学设计的比赛分为两种模式:1 个 AI+5 个人类玩家和 5 个 AI+1 个人类玩家,Pluribus 在这两种模式中都取得了胜利。如果一个筹码值 1 美元,Pluribus 平均每局能赢 5 美元,与 5 个人类玩家对战一小时就能赢 1000 美元。职业扑克玩家认为这些结果是决定性的胜利优势。 这是 AI 首次在玩家人数(或队伍)大于 2 的大型基准 游戏 中击败顶级职业玩家

    在论文中,Pluribus 整合了一种新的在线搜索算法,可以通过搜索前面的几步而不是只搜索到 游戏 结束来有效地评估其决策。此外,Pluribus 还利用了速度更快的新型 Self-Play 非完美信息 游戏 算法。综上所述,这些改进使得使用极少的处理能力和内存来训练 Pluribus 成为可能。 训练所用的云计算资源总价值还不到 150 美元 。这种高效与最近其他人工智能里程碑项目形成了鲜明对比,后者的训练往往要花费数百万美元的计算资源。

    Pluribus 的自我博弈结果被称为蓝图策略。在实际 游戏 中,Pluribus 使用搜索算法提升这一蓝图策略。但是 Pluribus 不会根据从对手身上观察到的倾向调整其策略。

    在人工智能之外的量子计算领域,去年也有重要的研究突破。2019 年 9 月,谷歌提交了一篇名为《Quantum supremacy using a programmable superconducting processor》的论文自 NASA 网站传出,研究人员首次在实验中证明了量子计算机对于传统架构计算机的优越性:在世界第一超算 Summit 需要计算 1 万年的实验中,谷歌的量子计算机只用了 3 分 20 秒。因此,谷歌宣称实现「量子优越性」。之后,该论文登上了《自然》杂志 150 周年版的封面。

    这一成果源自科学家们不懈的努力。谷歌在量子计算方向上的研究已经过去了 13 年。2006 年,谷歌科学家 Hartmut Neven 就开始 探索 有关量子计算加速机器学习的方法。这项工作推动了 Google AI Quantum 团队的成立。2014 年,John Martinis 和他在加利福尼亚大学圣巴巴拉分校(UCSB)的团队加入了谷歌的工作,开始构建量子计算机。两年后,Sergio Boixo 等人的论文发表,谷歌开始将工作重点放在实现量子计算优越性任务上。

    如今,该团队已经构建起世界上第一个超越传统架构超级计算机能力的量子系统,可以进行特定任务的计算。

    量子优越性实验是在一个名为 Sycamore 的 54 量子比特的完全可编程处理器上运行的。该处理器包含一个二维网格,网格中的每个量子比特与其他四个相连。量子优越性实验的成功归功于谷歌改进了具有增强并行性的双量子比特门,即使同时操作多个门,也能可靠地实现记录性能。谷歌使用一种新型的控制旋钮来实现这一性能,该旋钮能够关闭相邻量子比特之间的交互。此举大大减少了这种多连通量子比特系统中的误差。此外,通过优化芯片设计来降低串扰,以及开发避免量子比特缺陷的新控制校准,谷歌进一步提升了性能。

    虽然 AI 没有打败最强人类玩家 Serral,但其研究的论文仍然登上了 Nature。2019 年 10 月底,DeepMind 有关 AlphaStar 的论文发表在了当期《Nature》杂志上,这是人工智能算法 AlphaStar 的最新研究进展,展示了 AI 在「没有任何 游戏 限制的情况下」已经达到星际争霸Ⅱ人类对战天梯的顶级水平,在 Battle.net 上的排名已超越 99.8%的活跃玩家

    回顾 AlphaStar 的发展历程,DeepMind 于 2017 年宣布开始研究能进行即时战略 游戏 星际争霸Ⅱ的人工智能——AlphaStar。2018 年 12 月 10 日,AlphaStar 击败 DeepMind 公司里的最强玩家 Dani Yogatama;12 月 12 日,AlphaStar 已经可以 5:0 击败职业玩家 TLO 了(TLO 是虫族玩家,据 游戏 解说们认为,其在 游戏 中的表现大概能有 5000 分水平);又过了一个星期,12 月 19 日,AlphaStar 同样以 5:0 的比分击败了职业玩家 MaNa。至此,AlphaStar 又往前走了一步,达到了主流电子竞技 游戏 顶级水准。

    根据《Nature》论文描述,DeepMind 使用通用机器学习技术(包括神经网络、借助于强化学习的自我博弈、多智能体学习和模仿学习)直接从 游戏 数据中学习。AlphaStar 的 游戏 方式令人印象深刻——这个系统非常擅长评估自身的战略地位,并且准确地知道什么时候接近对手、什么时候远离。此外,论文的中心思想是将 游戏 环境中虚构的自我博弈扩展到一组智能体,即「联盟」。

    联盟这一概念的核心思想是:仅仅只是为了赢是不够的。相反,实验需要主要的智能体能够打赢所有玩家,而「压榨(exploiter)」智能体的主要目的是帮助核心智能体暴露问题,从而变得更加强大。这不需要这些智能体去提高它们的胜率。通过使用这样的训练方法,整个智能体联盟在一个端到端的、完全自动化的体系中学到了星际争霸Ⅱ中所有的复杂策略。

    2019 年在 AI 领域的各个方向上都出现了很多技术突破。新的一年,我们期待更多进展。

    此外,机器之心于 2019 年 9 月底推出了自己的新产品 SOTA 模型,读者可以根据自己的需要寻找机器学习对应领域和任务下的 SOTA 论文,平台会提供论文、模型、数据集和 benchmark 的相关信息。

    二、BERT预训练模型

    n-gram语言模型:根据前面n个词预测当前词,它的缺点是,一般只能取1-2,n越大计算成本越高,这就使得它关注的信息是非常局限的。

    预训练语言模型:wordvec\glove\fasttext。wordvec是根据周围词预测当前词或当前词预测周围词,相比于n-gram,它关注了下文,但它仍然是关注局部信息。glove通过构建词频共现矩阵来训练词向量,将全局信息融入到词向量中。fasttext仍然是局部的,只是他分词是基于subword,对于oov词相对友好。三者共同的缺点是,无法解决一词多义问题。

    高级语言模型:elmo\GPT,elmo采用1层静态向量+2层单向LSTM提取特征,并且能够解决一词多义,elmo是一个双向语言模型,但实际上是两个单向语言模型(方向相反)的拼接,这种融合特征的能力比 BERT 一体化融合特征方式弱。GPT采用Transformer的decoder单元提取特征,同样也可以解决一词多义问题,但GPT是单向的。所以,对上下文信息的融合,二者能力还不够。

    bert是双向语言模型,句子没有shift_mask操作,所以是完整的上下文环境,证实了双向语言模型对文本特征表示的重要性。bert同时证实了预训练模型能够简化很多繁重任务的网络结构,在11个nlp任务上都有显著提升。

    bert采用Transformer的encoder单元提取特征,encoder中包含几个重要的机制:self-attention、muti-head attention、position encoding。

    bert分为bert_base和bert_large大小两个模型,bert_base采用了12个encoder单元,768维隐藏层,12个attention。bert_base采用了24个encoder单元,1024维隐藏层,16个attention。

    input:单句或句对组合,有[cls]作为句子开头的标记,[sep]作为句子分隔和结束的标记。

    token embedding:对于英文采用WordPiece embeddings,也就是一个单词会被拆成词根词缀的,比如图中的playing被拆成了play和ing两个token;对于中文,就是单子拆分。

    segment embedding:相邻句子采用不同的标志分隔,形如111111111100000011111100000。

    position embedding:在transformer中,单词之间是没有先后顺序的,而语言本身是有序的,所以采用采用正余弦函数来计算每个单词的先后顺序,这种方式有点勉强,算是折中方式。

    前面讲到elmo也是双向语言模型,它是采用bi-LSTM来提取特征,如下:

    比如一句话:‘北京是中国的首都’,在LSTM中从左往右,预测‘中国’的时候只能看到‘北京’,从右往左,预测‘中国’的时候只能看到‘首都’,然后将两个lstm的输出做拼接来达到上下文信息融合的目的。其实是没有完全做到双向,只是以结构的改变来接近双向语言模型。真正的双向是预测‘中国’的时候,需要同时看到‘北京’和‘首都’。由此,mask LM产生了。

    mask LM的原理是将‘中国’遮盖住,同时用‘北京’和‘首都’来预测‘中国’。‘北京’和‘首都’联系起来语言模型很容易联想到就是‘中国’啦。这个思想和wordvec的CBOW模型如出一辙,就是用周围词预测当前词,只是这个思想放在厉害的transformer中,便能大显其能。

    BERT的mask方式:在选择mask的15%的词当中,80%情况下使用mask掉这个词,10%情况下采用一个任意词替换,剩余10%情况下保持原词汇不变。这样mask的优点是什么?

    1)被随机选择15%的词当中以10%的概率用任意词替换去预测正确的词,相当于文本纠错任务,为BERT模型赋予了一定的文本纠错能力;

    2)被随机选择15%的词当中以10%的概率保持不变,缓解了finetune时候与预训练时候输入不匹配的问题(预训练时候输入句子当中有mask,而finetune时候输入是完整无缺的句子,即为输入不匹配问题)。

    在Mask LM任务中,模型学到了词与词之间的关系,而NSP任务是要模型学到句子与句子之间的关系,比如问答、推理等。它将训练语料分为两类,一是将50%语料构建成正常语序的句子对,比如A-B句子对,B就是A的实际下一个句子,并做标记为isnext;二是将50%语料构建成非正常语序句子对,B是来自语料库的随机句子,并做标记为notnext。然后通过对句子对的关系做分类,预测B到底是不是A句子的下一个句子,使模型具有句子级别的识别能力。

    微调的目的在于我们的任务与bert预训练任务是不一致的,但是bert是非常好的语言模型,他具备提取词法和句法的强大能力。将bert嵌入到我们的网络结构中,能够简化在语言模型方面的复杂结构。只需要将输入做成和bert适配的格式就行,而在bert后面接上全连接、CNN等简单模型进行训练,就能够使训练得到一个比较好的效果。

    GPT 和 BERT 都采用Transformer,Transformer 是encoder-decoder 结构,GPT 的单向语言模型采用 decoder 部分,decoder 的部分见到的都是不完整的句子;BERT 的双向语言模型则采用 encoder 部分,采用了完整句子。他俩最主要的区别在于BERT是双向语言模型,更适合文本分类等任务,GPT是单向语言模型,更适合生成式任务。

    1)低层网络捕捉了短语级别的结构信息

    2)表层信息特征在底层网络(3,4),句法信息特征在中间层网络(6~9),语义信息特征在高层网络。(9~12)

    3)主谓一致表现在中间层网络(8,9)

    1)ROBERTA

    •静态mask->动态mask:在bert中每一个epoch被mask的是相同的词,而ROBERTA在每一个epoch结束,重新随机15%的词,使不同的词被mask。

    •去除句对NSP任务,输入连续多个句子:在bert中最长是512个token,输入单句或者句对不容易把512个token占满,ROBERTA输入更多句子占满512个坑位。

    •训练使用更多数据 更大batch size 更长时间

    2)ALBERT

    •减少参数:词表 V 到隐层 H 的中间,插入一个小维度 E,即一个VxH的embedding变成两个VxE, ExH的两个fc。

    •共享所有层的参数:Attention 和 FFN,在bert中每一层的Attention 和 FFN的参数是不一样的。

    •SOP 替换 NSP:负样本换成了同一篇文章中的两个逆序的句子,bert中是A-->B和A-->随机,ALBERT中是A-->B,B-->A。

    •BERT对MASK 15% 的词来预测。ALBERT 预测的是 n-gram 片段,包含更完整的语义信息。

    •训练数据长度:90%取512,BERT90% 128

    •对应BERT large:H:1024 ->4096  L:24->12  窄而深->宽而浅

    三、一文看尽2018全年AI技术大突破:NLP跨过分水岭、CV研究效果惊人

    量子位 出品 | 公众号 QbitAI

    2018,仍是AI领域激动人心的一年。

    这一年成为NLP研究的分水岭,各种突破接连不断;CV领域同样精彩纷呈,与四年前相比GAN生成的假脸逼真到让人不敢相信;新工具、新框架的出现,也让这个领域的明天特别让人期待……近日,Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告,原文作者PRANAV DAR。量子位在保留这个报告架构的基础上,对内容进行了重新编辑和补充。这份报告总结和梳理了全年主要AI技术领域的重大进展,同时也给出了相关的资源地址,以便大家更好的使用、查询。报告共涉及了五个主要部分:

    下面,我们就逐一来盘点和展望,嘿喂狗~

    2018年在NLP 历史 上的特殊地位,已经毋庸置疑。

    这份报告认为,这一年正是NLP的分水岭。2018年里,NLP领域的突破接连不断:ULMFiT、ELMo、最近大热的BERT……

    迁移学习成了NLP进展的重要推动力。从一个预训练模型开始,不断去适应新的数据,带来了无尽的潜力,甚至有“NLP领域的ImageNet时代已经到来”一说。

    正是这篇论文,打响了今年NLP迁移学习狂欢的第一枪。论文两名作者一是Fast.ai创始人Jeremy Howard,在迁移学习上经验丰富;一是自然语言处理方向的博士生Sebastian Ruder,他的NLP博客几乎所有同行都在读。两个人的专长综合起来,就有了ULMFiT。想要搞定一项NLP任务,不再需要从0开始训练模型,拿来ULMFiT,用少量数据微调一下,它就可以在新任务上实现更好的性能。

    他们的方法,在六项文本分类任务上超越了之前最先进的模型。详细的说明可以读他们的论文:网站上放出了训练脚本、模型等:

    这个名字,当然不是指《芝麻街》里那个角色,而是“语言模型的词嵌入”,出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations,NLP顶会NAACL HLT 2018的优秀论文之一。

    ELMo用语言模型(language model)来获取词嵌入,同时也把词语所处句、段的语境考虑进来。

    这种语境化的词语表示,能够体现一个词在语法语义用法上的复杂特征,也能体现它在不同语境下如何变化。

    当然,ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上,能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上,用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

    这里有ELMo的更多介绍和资源:

    它由Google推出,全称是 B idirectional E ncoder R epresentations from T ransformers,意思是来自Transformer的双向编码器表示,也是一种预训练语言表示的方法。从性能上来看,没有哪个模型能与BERT一战。它在11项NLP任务上都取得了最顶尖成绩,到现在,SQuAD 2.0前10名只有一个不是BERT变体:

    如果你还没有读过BERT的论文,真的应该在2018年结束前补完这一课:另外,Google官方开源了训练代码和预训练模型:如果你是PyTorch党,也不怕。这里还有官方推荐的PyTorch重实现和转换脚本:

    BERT之后,NLP圈在2018年还能收获什么惊喜?答案是,一款新工具。

    就在上周末,Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架,每天要为Facebook旗下各种应用处理超过10亿次NLP任务,是一个工业级的工具包。

    (Facebook开源新NLP框架:简化部署流程,大规模应用也OK)

    PyText基于PyTorch,能够加速从研究到应用的进度,从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型,可以直接拿来处理文本分类、序列标注等任务。

    想试试?开源地址在此:

    它能主动打电话给美发店、餐馆预约服务,全程流畅交流,简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”,还说:“在预约领域,这个AI已经通过了图灵测试。”Duplex在多轮对话中表现出的理解能力、合成语音的自然程度,都是NLP目前水平的体现。如果你还没看过它的视频……

    NLP在2019年会怎么样?我们借用一下ULMFiT作者Sebastian Ruder的展望:

    今年9月,当搭载BigGAN的双盲评审中的ICLR 2019论文现身,行家们就沸腾了: 简直看不出这是GAN自己生成的

    在计算机图像研究史上,BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后,它的Inception Score(IS)得分166.3,是之前最佳得分52.52分 3倍

    除了搞定128×128小图之外,BigGAN还能直接在256×256、512×512的ImageNet数据上训练,生成更让人信服的样本。

    在论文中研究人员揭秘,BigGAN的惊人效果背后,真的付出了金钱的代价,最多要用512个TPU训练,费用可达11万美元,合人民币76万元。

    不止是模型参数多,训练规模也是有GAN以来最大的。它的参数是前人的2-4倍,批次大小是前人的8倍。

    研究论文:

    前前后后,Fast.ai团队只用了16个AWS云实例,每个实例搭载8块英伟达V100 GPU,结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。这样拔群的成绩,成本价只需要 40美元 ,Fast.ai在博客中将其称作人人可实现。

    相关地址: Fast.ai博客介绍:

    今年8月,英伟达和MIT的研究团队高出一个 超逼真 高清视频生成AI。

    只要一幅动态的语义地图,就可获得和真实世界几乎一模一样的视频。换句话说,只要把你心中的场景勾勒出来,无需实拍,电影级的视频就可以自动P出来:

    除了街景,人脸也可生成:

    这背后的vid2vid技术,是一种在生成对抗性学习框架下的新方法:精心设计的生成器和鉴别器架构,再加上时空对抗目标。

    这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上,实现高分辨率、逼真、时间相干的视频效果。

    好消息,vid2vid现已被英伟达开源。

    研究论文:

    GitHub地址

    相关地址

    相关地址

    关于language的问题,通过《BERT预训练模型》、《一文看尽2018全年AI技术大突破:NLP跨过分水岭、CV研究效果惊人》等文章的解答希望已经帮助到您了!如您想了解更多关于language的相关信息,请到本站进行查找!

    爱资源吧版权声明:以上文中内容来自网络,如有侵权请联系删除,谢谢。

    language
    你用上Android10了吗?手机电脑都能玩 你永远是我最爱的人