Transformer论文引用破4万,两 - 本科生毕业论文

TUhjnbcbe - 2023/2/14 1:10:00

北京治疗白癜风最好的医院 https://wapyyk.39.net/bj/zhuanke/89ac7.html

机器之心报道

编辑：张倩

「在谷歌，我们训练出了越来越大的Transformer，梦想着有朝一日构建一个通用模型来支持所有ML用例。但是，这其中有一个明显的局限：用文本训练出的模型可以写出很棒的散文，但它们无法在数字世界中采取行动。你不能要求GPT-3给你订机票，给供应商开支票，或者进行科学实验。」

在一场轰轰烈烈的「炼大模型」运动之后，全世界都在给这些模型寻找应用途径和场景，原谷歌大脑研究人员、Transformer重要作者AshishVaswani、NikiParmar也不例外。

年，AshishVaswani、NikiParmar和其他几位研究者一起发表了开启大模型时代的里程碑式论文——《AttentionIsAllYouNeed》。在这篇论文中，他们提出了著名的Transformer架构。年，一个名为BERT的模型引爆了NLP学界，刷新了11项NLP任务的SOTA记录，其背后功臣正是Transformer。

AshishVaswani、NikiParmar等人年发表的《AttentionIsAllYouNeed》。注意：表示这些研究者做出了不同方面但同等重要的贡献（排名随机）。其中，Ashish和Illia一起设计并实现了第一批Transformer模型，并重度参与了Transformer架构的各方面工作。Niki在原始代码库和tensor2tensor中设计、实现、调优和评估了无数的模型变量。

在之后的几年里，Transformer成为自然语言处理领域的主流架构，而且成功跨界到了视觉、音频处理等多个领域，标志性的「xxxisallyouneed」也成为火爆一时的标题模板。

五年过去，AshishVaswani、NikiParmar决定踏上新的征程。在最近发布的推文中，他们宣布自己参与创办了一家新的创业公司——Adept，致力于让人和计算机以创造性的方式一起工作，从而实现通用智能。「我们相信，人工智能系统应该以用户为中心，我们的愿景是让机器与坐在驾驶员位置上的人一起工作：发现新的解决方案，使决策更加明智，并给我们更多的时间做我们喜欢的工作。」该公司在介绍中写道。

除了AshishVaswani和NikiParmar，该公司还聚集了多位AI领域的顶级研究者（基本都在谷歌工作过），包括：

前谷歌大脑研究工程师AnmolGulati，他参与了谷歌的大规模语音和语言建模研究；

前谷歌大脑研究科学家AugustusOdena，他参与构建了谷歌的代码生成模型；

前OpenAI加州实验室工程副总裁DavidLuan，后来也加入过谷歌大脑，他是GPT-2、PaLM(