谷歌大脑的Transformer论文,“翻车”了 谷歌大脑项目创始人

要闻 | 2023-05-09| 25
谷歌大脑的Transformer论文,“翻车”了 谷歌大脑项目创始人

大家好,今天小编来为大家解答【谷歌大脑的Transformer论文,“翻车”了】这个问题,很多人还不知道,现在让我们一起来看看吧!

2017 年,谷歌大脑团队在其论文《Attention Is All You Need》中创造性地提出 Transformer 这一架构,自此这一研究一路开挂,成为当今 NLP 领域最受欢迎的模型之一,被广泛应用于各种语言任务,并取得了许多 SOTA 结果。

不仅如此,在 NLP 领域一路领先的 Transformer,迅速席卷计算机视觉(CV)、语音识别等领域,在图像分类、目标检测、语音识别等任务上取得良好的效果。

论文地址:https://arxiv.org/pdf/1706.03762.pdf

从推出至今,Transformer 已经成为众多模型的核心模块,比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就连近段时间爆火的 ChatGPT 也依赖 Transformer,而后者早已被谷歌申请了专利。

图源:https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf

此外 OpenAI 发布的系列模型 GPT(Generative Pre-trained Transformer),名字中带有 Transformer,可见 Transformer 是 GPT 系列模型的核心。

与此同时,最近 OpenAI 联合创始人 Ilya Stutskever 在谈到 Transformer 时表示,当 Transformer 刚发布之初,实际上是论文放出来的第二天,他们就迫不及待将以前的研究切换到 Transformer ,后续才有了 GPT。可见 Transformer 的重要性不言而喻。

6 年时间,基于 Transformer 构建的模型不断发展壮大。然而现在,有人发现了 Transformer 原始论文中的一处错误。

Transformer 架构图与代码“不一致”

发现错误的是一位知名机器学习与 AI 研究者、初创公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出,原始 Transformer 论文中的架构图有误,将层归一化(LN)放置在了残差块之间,而这与代码不一致。

Transformer 架构图如下左,图右为 Post-LN Transformer 层(出自论文《On Layer Normalization in the Transformer Architecture》[1]

不一致的代码部分如下,其中 82 行写了执行顺序“layer_postprocess_sequence="dan"”,表示后处理依次执行 dropout、residual_add 和 layer_norm。如果上图左中的 add&norm 理解为:add 在 norm 上面,即先 norm 再 add,那确实代码和图不一致。

代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e

接下来,Sebastian 又表示,论文《On Layer Normalization in the Transformer Architecture》认为 Pre-LN 表现更好,能够解决梯度问题。这是很多或者大多数架构在实践中所采用的,但它可能导致表示崩溃。

因此,虽然关于 Post-LN 或 Pre-LN 的争论仍在继续,但另一篇论文结合了这两点,即《ResiDual: Transformer with Dual Residual Connections》[2]

对于 Sebastian 的这一发现,有人认为,我们经常会遇到与代码或结果不一致的论文。大多数是无心之过,但有时令人感到奇怪。考虑到 Transformer 论文的流行程度,这个不一致的问题早就应该被提及 1000 次。

Sebastian 回答称,公平地讲,“最最原始”的代码确实与架构图一致,但 2017 年提交的代码版本进行了修改,同时没有更新架构图。所以,这实在令人困惑。

正如一位网友所说:“读代码最糟糕的是,你会经常发现这样的小变化,而你不知道是有意还是无意。你甚至无法测试它,因为你没有足够的算力来训练模型。”

不知谷歌之后是否会更新代码还是架构图?

参考链接:

论文[1]:https://arxiv.org/pdf/2002.04745.pdf

论文[2]https://arxiv.org/pdf/2304.14802.pdf

以上就是【谷歌大脑的Transformer论文,“翻车”了】相关内容,更多资讯请关注北方经济网

相关推荐相关推荐

中国股票,突传利好!

中国股票,突传利好!

外资重新定价中国资产。 随着上证指数、恒生指数相继迈入技术性牛市,外资巨头正在持续加码配置中国股票。高盛最新发布的报告指出,将MSCI中国指数12个月目标位从60上调至70;将沪深300指数12个月目标位从3900点上调至4100点。 与此同时,外资正疯狂扫货 ...

要闻 0 2024-05-20
上演“天地板”!南京化纤尾盘跳水,此前收获6连板

上演“天地板”!南京化纤尾盘跳水,此前收获6连板

5月20日,南京化纤(600889.SH)尾盘跳水瞬间跌停,上演“天地板”。值得注意是,南京化纤此前收获6连板,今日涨停开盘。

要闻 0 2024-05-20
重磅传来!这个市场涨疯了

重磅传来!这个市场涨疯了

地产发动的行情可能要超出市场的想象! 上周五,地产利好持续释放,市场却一度出现了“内资反应平淡,外资积极响应”的局面,不少业内人士依旧看淡。今天早上,央行主管媒体中国金融时报再度发声:未来房贷利率还会有明显下降。 头部券商中金公司今早更是表 ...

要闻 0 2024-05-20
超81万手封单,矿业股一字跌停!现货黄金站上2440美元,续创历史新高,黄金白银携手狂欢!资金出手多只黄金股

超81万手封单,矿业股一字跌停!现货黄金站上2440美元,续创历史新高,黄金白银携手狂欢!资金出手多只黄金股

有色金属板块持续走高,机构看好黄金后市。 沪指早间震荡反弹,创业板指一度涨超1%,有色金属板块持续走高,北方铜业涨停,豫光金铅涨超9%。民爆概念股集体爆发,高争民爆、保利联合双双涨停。旅游板块拉升,长白山涨停,金马游乐涨超10%。房地产板块探底 ...

要闻 3 2024-05-20
美联储突传重磅!全球降息周期启动

美联储突传重磅!全球降息周期启动

美国银行业突传重磅消息。 据最新消息,美联储和另外两家联邦监管机构正在制定一项新计划,新计划将放宽此前提案中的大银行资本上调要求,此前的计划要求美国大型银行将资本金提高近20%,新计划可能只是原计划的一半左右。这对美国银行业来说将是一次重大 ...

要闻 4 2024-05-20
本周两股将申购!920第一股来了

本周两股将申购!920第一股来了

920第一股来了! 停摆两周后,本周(5月20日—5月24日),A股市场将迎来两只新股申购,分别为北交所的万达轴承和创业板的汇成真空。 资料显示,万达轴承是国内规模最大的叉车专用轴承制造商,公司证券代码为920002。值得一提的是,这是北交所启用920代 ...

要闻 4 2024-05-20
行情反弹  多家上市公司高管、机构股东抛出减持计划

行情反弹 多家上市公司高管、机构股东抛出减持计划

随着近期A股行情反弹,近期多家上市公司高管以及投资机构纷纷抛出了减持计划,其中,部分持股比例较小的股东拟清仓式减持。

要闻 4 2024-05-20
打好楼市新政组合拳 让优惠快速足量落地

打好楼市新政组合拳 让优惠快速足量落地

市场需求是不缺的,这是记者在采访全国核心城市楼市后最直观的感受。 在前期一系列楼市政策措施密集释放的背景下,被形容为见证历史的保交房配套政策,在刚刚过去的周末点燃了购房者的热情。史上最低的商业性个人住房贷款首付比例以及历史低位的贷款利率 ...

要闻 5 2024-05-20
业绩对赌落空!美芝股份新老实控人矛盾公开化!交易所问询

业绩对赌落空!美芝股份新老实控人矛盾公开化!交易所问询

美芝股份几年前的一次控制权变更,新老实控人就公司未来三年业绩进行对赌,埋下了隐患。

要闻 5 2024-05-20
旅游出行板块走高,长白山涨停,西藏旅游等大涨

旅游出行板块走高,长白山涨停,西藏旅游等大涨

旅游出行板块20日盘中大幅走高,截至发稿,长白山涨停,金马游乐涨超9%,西藏旅游涨超8%,峨眉山A涨逾7%,君亭酒店、大连圣亚涨超5%。

要闻 5 2024-05-20