Transformer全新里程碑!诞生6年,开山之作被引近8万
编辑 :桃子 好困【新智元导读】Transformer,新里6岁了 !程碑2017年,诞生Attention is 年开All You Need奠基之作问世,至今被引数近8万。作被这个王者架构还能继续打多久 ?2017年6月12日,引近Attention is 新里All You Need,一声炸雷,程碑大名鼎鼎的诞生Transformer横空出世。
它的年开出现,不仅让NLP变了天,作被成为自然语言领域的引近主流模型,还成功跨界CV,新里给AI界带来了意外的程碑惊喜。到今天为止 ,诞生Transformer诞生6周年。而这篇论文被引数高达77926。英伟达科学家Jim Fan对这篇盖世之作做了深度总结:1. Transformer并没有发明注意力,而是将其推向极致。第一篇注意力论文是在3年前(2014年)发表的 。这篇论文来自Yoshua Bengio的实验室,而标题并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。它是「RNN+上下文向量」(即注意力)的组合。或许很多人都没有听说过这篇论文,但它是NLP中最伟大的里程碑之一,已经被引用了29K次(相比之下 ,Transformer为77K) 。2. Transformer和最初的注意力论文,都没有谈到通用序列计算机 。相反 ,两者都为了解决一个狭隘而具体的问题:机器翻译 。值得注意的是 ,AGI(不久的某一天)可以追溯到不起眼的谷歌翻译 。3. Transformer发表在2017年的NeurIPS上 ,这是全球顶级的人工智能会议之一。然而 ,它甚至没有获得Oral演讲,更不用说获奖了。那一年的NeurIPS上有3篇最佳论文 。截止到今天 ,它们加起来有529次引用 。Transformer这一经典之作却在NeurIPS 2017没有引起很多人的关注 。对此,Jim Fan认为 ,在一项出色的工作变得有影响力之前 ,很难让人们认可它。我不会责怪NeurIPS委员会——获奖论文仍然是一流的 ,但影响力没有那么大。一个反例是ResNet。何凯明等人在CVPR 2016年获得了最佳论文。这篇论文当之无愧 ,得到了正确的认可 。2017年,该领域聪明的人中,很少有人能够预测到今天LLM革命性的规模。就像20世纪80年代一样,很少有人能预见自2012年以来深度学习的海啸。OpenAI科学家Andrej Karpathy对Jim Fan第2点总结颇感兴趣 ,并表示,介绍注意力的论文(由@DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的论文受到的关注要少1000倍 。而且从历史上看,这两篇论文都非常普通,但有趣的是恰好都是为机器翻译而开发的。你只需要注意力 !Transformer诞生之前,AI圈的人在自然语言处理中大都采用基于RNN(循环神经网络)的编码器-解码器(Encoder-Decoder)结构来完成序列翻译。然而,RNN及其衍生的网络最致命的缺点就是慢。关键问题就在于前后隐藏状态的依赖性,无法实现并行。Transformer的现世可谓是如日中天,让许多研究人员开启了追星之旅。2017年 ,8位谷歌研究人员发表了Attention is All You Need 。可以说 ,这篇论文是NLP领域的颠覆者。论文地址 :https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算 。甚至,有人发问「有了Transformer框架后是不是RNN完全可以废弃了 ?」JimFan所称Transformer当初的设计是为了解决翻译问题,毋庸置疑。谷歌当年发的博客 ,便阐述了Transformer是一种语言理解的新型神经网络架构。文章地址:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html具体来讲 ,Transformer由四部分组成 :输入、编码器、解码器 ,以及输出 。输入字符首先通过Embedding转为向量 ,并加入位置编码(Positional Encoding)来添加位置信息 。然后,通过使用多头自注意力和前馈神经网络的「编码器」和「解码器」来提取特征 ,最后输出结果。如下图所示,谷歌给出了Transformer如何用在机器翻译中的例子。机器翻译的神经网络通常包含一个编码器 ,在读取完句子后生成一个表征。空心圆代表着Transformer为每个单词生成的初始表征。然后 ,利用自注意力,从所有其他的词中聚合信息,在整个上下文中为每个词产生一个新表征,由实心圆表示 。接着,将这个步骤对所有单词并行重复多次,依次生成新的表征。同样,解码器的过程与之类似,但每次从左到右生成一个词。它不仅关注其他先前生成的单词,还关注编码器生成的最终表征 。2019年 ,谷歌还专门为其申请了专利。自此,在自然语言处理中 ,Transformer逆袭之路颇有王者之风。归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer) ,都起源于这篇17年的论文。然而 ,Transformer燃爆的不仅是NLP学术圈。万能Transformer:从NLP跨到CV2017年的谷歌博客中,研究人员曾对Transformer未来应用潜力进行了畅享:不仅涉及自然语言 ,还涉及非常不同的输入和输出 ,如图像和视频。没错 ,在NLP领域掀起巨浪后,Transformer又来「踢馆」计算机视觉领域。甚至 ,当时许多人狂呼Transformer又攻下一城 。自2012年以来,CNN已经成为视觉任务的首选架构。随着越来越高效的结构出现,使用Transformer来完成CV任务成为了一个新的研究方向 ,能够降低结构的复杂性,探索可扩展性和训练效率。2020年10月 ,谷歌提出的Vision Transformer (ViT),不用卷积神经网络(CNN) ,可以直接用Transformer对图像进行分类。值得一提的是 ,ViT性能表现出色,在计算资源减少4倍的情况下 ,超过最先进的CNN。紧接着 ,2021年 ,OpenAI连仍两颗炸弹,发布了基于Transformer打造的DALL-E,还有CLIP。这两个模型借助Transformer实现了很好的效果 。DALL-E能够根据文字输出稳定的图像。而CLIP能够实现图像与文本的分类 。再到后来的DALL-E进化版DALL-E 2,还有Stable Diffusion ,同样基于Transformer架构 ,再次颠覆了AI绘画。以下,便是基于Transformer诞生的模型的整条时间线。由此可见,Transformer是有多么地能打。2021年,当时就连谷歌的研究人员David Ha表示 ,Transformers是新的LSTMs 。而他曾在Transformer诞生之前,还称LSTM就像神经网络中的AK47。无论我们如何努力用新的东西来取代它 ,它仍然会在50年后被使用。Transformer仅用4年的时间 ,打破了这一预言。新硅谷「七叛徒」如今,6年过去了,曾经联手打造出谷歌最强Transformer的「变形金刚们」怎么样了 ?Jakob Uszkoreit被公认是Transformer架构的主要贡献者 。他在2021年中离开了Google ,并共同创立了Inceptive Labs,致力于使用神经网络设计mRNA。到目前为止,他们已经筹集了2000万美元 ,并且团队规模也超过了20人。Ashish Vaswani在2021年底离开Google ,创立了AdeptAILabs。可以说,AdeptAILabs正处在高速发展的阶段。目前,公司不仅已经筹集了4.15亿美元,而且也估值超过了10亿美元。此外,团队规模也刚刚超过了40人 。然而 ,Ashish却在几个月前离开了Adept。在Transformers论文中,Niki Parmar是唯一的女性作者。她在2021年底离开Google,并和刚刚提到的Ashish Vaswani一起,创立了AdeptAILabs 。不过 ,Niki在几个月前也离开了Adept 。Noam Shazeer在Google工作了20年后,于2021年底离开了Google 。随后 ,他便立刻与自己的朋友Dan Abitbol一起 ,创立了Character AI。虽然公司只有大约20名员工 ,但效率却相当之高。目前,他们已经筹集了近2亿美元 ,并即将跻身独角兽的行列。Aidan Gomez在2019年9月离开了Google Brain ,创立了CohereAI 。经过3年的稳定发展后 ,公司依然正在扩大规模——Cohere的员工数量最近超过了180名。与此同时 ,公司筹集到的资金也即将突破4亿美元大关。Lukasz Kaiser是TensorFlow的共同作者人之一,他在2021年中离开了Google ,加入了OpenAI。Illia Polosukhin在2017年2月离开了Google ,于2017年6月创立了NEAR Protocol。目前,NEAR估值约为20亿美元 。与此同时,公司已经筹集了约3.75亿美元 ,并进行了大量的二次融资。现在,只有Llion Jones还在谷歌工作。在论文的贡献方面,他风趣地调侃道:「自己最大的意义在于——起标题。」网友热评走到现在 ,回看Transformer ,还是会引发不少网友的思考。AI中的开创性论文 。马库斯表示,这有点像波特兰开拓者队对迈克尔·乔丹的放弃 。这件事说明了,即使在这样的一级研究水平上,也很难预测哪篇论文会在该领域产生何种程度的影响。这个故事告诉我们,一篇研究文章的真正价值是以一种长期的方式体现出来的。哇,时间过得真快 !令人惊讶的是,这个模型突破了注意力的极限,彻底改变了NLP 。在我攻读博士期间 ,我的导师 @WenmeiHwu 总是教育我们,最有影响力的论文永远不会获得最佳论文奖或任何认可,但随着时间的推移 ,它们最终会改变世界。我们不应该为奖项而奋斗,而应该专注于有影响力的研究!参考资料:https://twitter.com/DrJimFan/status/1668287791200108544https://twitter.com/karpathy/status/1668302116576976906https://twitter.com/JosephJacks_/status/1647328379266551808举报/反馈相关文章:
- 壹点日历12.10|做自己的太阳,温暖而有力量!早安北京这一夜,被周涛的优雅从容惊艳,55岁美成这样真不愧央视国脸
- “男孩被逼吃粪便”后续:警方称羞辱者未满14周岁
- 哈登4换4生意曝光,或者重回西部联手两大万能锋线,组三巨头争冠
- 抹香鲸尸体中被发现9.5千克龙涎香 价钱约392万元
- 马蹄铁棕榈马赛皂恒大歌舞团高清照流出,“三朵金花”同框,网友:许老板真有眼光
- 中超前14轮关键传球榜:奥斯卡高居榜首,罗慕洛次席
- 周琦迎运气审讯日!四大下家已经去其三,辽篮再见,上海或者迎新老大
- 大载重无人机初次用于电网基建运输
- 文班21+20,马刺吞16连败!德罗赞末节发威,公牛拒绝摆烂《家有儿女》中明目张胆的穿帮镜头,导演是把观众当傻子吗?
- [瞎话板]签下班巴后,76人仍妄想留下保罗
- 原创 快船VS开拓者前瞻:开拓者伤兵满营状态糟糕 快船主场剑指4连胜
- 3换2交易方案出炉!勇士打包保罗克莱,场均21+5顶级后卫驰援库里
- 威海481家企业加速向海“掘金”湖北妈妈肾衰竭,移植7岁儿子的肾,得救后:我的孩子,你安心走
- 埃杜尔:魔力鸟可以考虑法甲强队,卢卡库的责任感变强了球后2023-12-10 22:23上海球后2023-12-10 22:23上海
- CBA最新积分榜:广东克北汽第3,新疆胜山西第2,深圳胜青岛第7
- 活塞就只赢了2场,看看赢的哪2个“倒霉蛋”?
- 泰山决战横滨第1目标力保头名 中超扛旗者拒崩盘
- CBA最新积分榜,广东升第二,浙江第三,深圳第七,山东两连胜
- 原创 恭喜克洛普!截胡阿森纳,9000万欧顶级后腰,2条件,利物浦点头
- 0-2,近4轮3负!英超10亿航母开翻了,传统3大豪门全输:曼联领衔
- 步行者想用火箭登的经典战术绝杀湖人,施罗德精彩走位将其破解刘亦菲上学时没人追?当看到她的学生照后,网友:我也不敢追
- 二新闻:公牛与火箭分心哈登,浓眉谢绝湖人3年1.6亿
- 中国女队力争再上领奖台
- 那不勒斯夺冠后气氛紧张 斯帕莱蒂这就要告别?被央媒点名批评的11部烂剧,一个比一个离谱,简直没眼看!
- 为何是马刺抽中“状元签”?这是联盟的“摆烂警告”
- 布里斯班狮吼vs墨尔本城,主队握有主场优势张子枫未修生图流出,被网友公开批评:她的胸碍了谁的“意淫梦”?
- 战报|NBA总决赛正式打响,掘金104:93力克热火拔得头筹格力“换掉”代言人成龙,董明珠:我有3个理由换掉他!
- 新疆队往年CBA选秀权只能生意
- 主帅宣布!梅西周末迎巴黎告别战:2年3冠,贡献32球35助赵本山拒绝出席女儿婚礼,封杀女儿直播事业,这女婿到底干了啥?
- 热火进总决赛,纳斯上任要留哈登,怯夫新闻更新,总决赛赛程出炉