晚上睡觉脚抽筋是什么原因引起的| 什么鱼最好养不容易死| 筷子在古代叫什么| 纸是什么生肖| 月经不正常去医院检查什么项目| 青蒿素是什么| 长痣是什么原因引起的| 胃反酸吃什么药最好| 臻字的意思是什么| 月经不调吃什么调理| 梦见买豆腐是什么意思| 牡丹鹦鹉吃什么| 屁股抽筋疼是什么原因| 阴道发白是什么原因| 吃什么变碱性体质最快| 为什么明星整牙那么快| 转述句是什么意思| jnby是什么牌子| 刀纸是什么| 蛊惑是什么意思| 什么植物| 什么手机信号最好最强| 坛城是什么意思| 云为什么是白色的| 长命的动物是什么生肖| 考试早餐吃什么| 何以笙箫默什么意思| 苯佐卡因是什么药| 产后吃什么水果好| 沙拉酱是用什么做的| 夏天吃姜有什么好处| 沸去掉三点水念什么| 夹腿是什么| 安溪铁观音属于什么茶| 空调睡眠模式什么意思| 超生是什么意思| 什么是耦合| 冠状沟溃疡是什么病| semir是什么牌子| 没主见是什么意思| nox是什么意思| 什么人不能吃鸡蛋| 钙化积分是什么意思| 贵姓是什么意思| 真菌感染有什么症状| 今晚吃什么| 二甲双胍缓释片什么时候吃| 猫吃什么会死| 书字五行属什么| 胆水的成分是什么| 胆结石是什么原因造成的| 养神经的药是什么药最好| 头晕视力模糊是什么原因| 谷丙转氨酶偏高说明什么原因| 女人有卧蚕代表什么| 动脉抽血为什么这么疼| 凤梨是什么| 鼻子出血什么原因| 艾灸什么时候做最好| ap手表是什么牌子| 最多笔画的汉字是什么| 孕早期生气对胎儿有什么影响| 法院是什么机关| 人的牙齿为什么不能再生| pd是什么意思| 注音是什么| 入职offer是什么意思| 叶酸吃到什么时候| 乙肝两对半145阳性是什么意思| 生地黄是什么| 为什么叫关东军| swi是什么检查| 梦到捉鱼是什么意思| 心性是什么意思| 明朝北京叫什么| 什么降血脂效果最好的| 什么是冰种翡翠| 什么是组织| 鼻屎有臭味是什么原因| 趾高气昂是什么意思| 脚气病缺什么维生素| 红色配什么颜色| 什么车最长| 舌头上火了吃什么降火| 6月6日是什么日子| 土茯苓和什么煲汤最好| 夏枯草是什么样子| 羊水栓塞是什么原因引起的| 普洱茶是什么茶类| 什么叫全科医生| 斛是什么意思| 黄鱼是什么鱼| 今天什么生肖最旺| 鱼胶是什么东西| 草字头一个辛读什么| abr是什么检查| 物竞天择是什么意思| 儒家思想的核心是什么| cm3是什么单位| 吃什么养胃| 喝苦荞茶有什么好处| 右后背疼什么原因| 食管挂什么科| 中焦不通吃什么药| 藿香正气水有什么用| 刮痧是什么原理| 提高免疫力吃什么药| 煮玉米放什么好吃| 爱睡觉是什么原因| 宫颈细胞学检查是什么意思| 今年什么时候入梅| 什么东东是什么意思| 爱之深恨之切是什么意思| 口干口苦吃什么药好| mb是什么意思| 病理性骨折是什么意思| 卵生是什么意思| 手指发麻是什么原因| 什么是盐| 炖鸡块放什么调料| egg是什么意思| 胆识是什么意思| 膻味是什么意思| 四十不惑是什么意思| 尿蛋白高吃什么食物好| 六月一日是什么星座| 老打嗝是什么原因| 盆腔炎是什么原因引起的| cordura是什么面料| 虎头蛇尾是什么生肖| 感冒发烧挂什么科室| 小葱拌豆腐的下一句是什么| 扁平疣是什么原因长出来的| 橘子什么季节成熟| 孕酮低什么原因| 妗子是什么意思| 汗疱疹吃什么药| 胃癌吃什么药| 癔症是什么病| mi什么意思| 骨折后吃什么好的快| 碳13和碳14有什么区别| 槟榔中间的膏是什么| 汉字最多笔画是什么字| 失眠吃什么好| 身份证最后一位x是什么意思| 琪五行属性是什么| 慢性萎缩性胃炎c2是什么意思| 喝莓茶对身体有什么好处| 桃子不能和什么食物一起吃| 小便黄是什么原因| 胃溃疡a1期是什么意思| 吃什么睡眠最快| 梦见捡钱是什么预兆| 梦见好多猪是什么意思| 去医院查怀孕挂什么科| 益母草什么时候喝最好| 心脏舒张功能减低是什么意思| 经常嗓子哑是什么原因| 吃青椒有什么好处| 嘴角生疮是什么原因| 感冒喉咙痛吃什么药好| 通讯地址填什么| 心慌心闷是什么原因| 甲功七项检查什么| 白头翁代表什么生肖| 腹泻呕吐是什么原因| 甲状腺炎吃什么药好得快| 吃蒜有什么好处| 回乡偶书的偶书是什么意思| 舌头上有齿痕是什么原因| 什么人不宜喝咖啡| 爱奇艺积分有什么用| 色弱什么意思| 产后42天复查挂什么科| 阿胶的原料是什么| 大姨妈有血块是什么原因| 眼睛浮肿是什么原因引起的| 吉祥物是什么生肖| h1是什么意思| 右侧卵巢囊性结构是什么意思| 迦字五行属什么| 单核细胞百分比偏高什么原因| 右手有痣代表什么| 中国梦是什么梦| 月经期吃什么| 多多包涵是什么意思| 肾疼是什么原因| 住院需要带什么生活用品| 钾低是什么原因| 黑脸代表什么| 清华什么专业最好| 拉杆箱什么材质好| 什么样的人长寿| 沙和尚是什么动物变的| 蓝牙耳机什么牌子好| 高血压中医叫什么| 昱五行属性是什么| 印巴冲突中国做了什么| 潜质是什么意思| meq是什么单位| 棉花代表什么生肖| ais什么意思| 老虔婆是什么意思| 流理台是什么| 什么时候立秋| 大雄宝殿供奉的是什么佛| 不稀罕是什么意思| 戒指戴左手食指是什么意思| 阳历7月7日是什么日子| 吹胡子瞪眼是什么意思| 皮肤干燥是什么原因| 狗狗发烧吃什么药| 牙龈疼吃什么药| 什么地找| 月经期间洗澡会有什么影响吗| 甲状腺看什么科| 肚子疼应该挂什么科| 火可以加什么偏旁| 天秤女和什么星座最配| 坐落是什么意思| 刽子手是什么意思| 浓鼻涕吃什么药| 清炖排骨都放什么调料| 细菌性前列腺炎有什么症状| 阴囊瘙痒挂什么科室| 大便潜血阳性意味着什么| 血浓度高是什么原因| 梦见大火烧房子是什么意思| 凉粉是什么做的| std是什么意思| 敛财是什么意思| 黑鱼不能和什么一起吃| 搬家有什么讲究和忌讳| 黄体期是什么| 大便黑色是什么问题| 子宫腺肌症是什么意思| 方阵是什么意思| 异常灌注是什么意思| 小孩血糖高有什么症状| 梦见被追杀预示什么| 机电一体化学什么| 什么是气| 鼻炎吃什么药| 狗牯脑茶属于什么茶| 胃不舒服恶心想吐吃什么药| 4月25号什么星座| 张飞穿针歇后语下一句是什么| 影字五行属什么| 纺织业属于什么行业| 鳌虾吃什么| 湖南有什么好玩的| 家有一老如有一宝是什么意思| 舌裂纹是什么原因| 长焦是什么意思| 宾至如归是什么意思| 为什么会一直拉肚子| 什么样的人不适合吃人参| 红肉是什么肉| 什么药是消炎药| 什么时候用得| 117是什么电话| 棋逢对手下一句是什么| txt什么意思| 百度
大数据频道 频道

RNN和LSTM弱爆了!注意力模型才是王道!

  【IT168 评论】循环神经网络(RNN),长短期记忆(LSTM),这些红得发紫的神经网络——是时候抛弃它们了!LSTM和RNN被发明于上世纪80、90年代,于2014年死而复生。接下来的几年里,它们成为了解决序列学习、序列转换(seq2seq)的方式,这也使得语音到文本识别和Siri、Cortana、Google语音助理、Alexa的能力得到惊人的提升。

  另外,不要忘了机器翻译,包括将文档翻译成不同的语言,或者是神经网络机器翻译还可以将图像翻译为文本,文字到图像和字幕视频等等。

  在接下来的几年里,ResNet出现了。ResNet是残差网络,意为训练更深的模型。2016年,微软亚洲研究院的一组研究员在ImageNet图像识别挑战赛中凭借惊人的152层深层残差网络(deep residual networks),以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。之后,Attention(注意力)模型出现了。

  虽然仅仅过去两年,但今天我们可以肯定地说:

  “不要再用RNN和LSTM了,它们已经不行了!”

  让我们用事实说话。Google、Facebook、Salesforce等企业越来越多地使用了基于注意力模型(Attention)的网络。

  所有这些企业已经将RNN及其变种替换为基于注意力的模型,而这仅仅是个开始。比起基于注意力的模型,RNN需要更多的资源来训练和运行。RNN命不久矣。

  为什么

  记住RNN和LSTM及其衍生主要是随着时间推移进行顺序处理。请参阅下图中的水平箭头:

RNN和LSTM弱!爆!了!注意力模型才是王道
▲RNN中的顺序处理

  水平箭头的意思是长期信息需在进入当前处理单元前顺序遍历所有单元。这意味着其能轻易被乘以很多次<0的小数而损坏。这是导致vanishing gradients(梯度消失)问题的原因。

  为此,今天被视为救星的LSTM模型出现了,有点像ResNet模型,可以绕过单元从而记住更长的时间步骤。因此,LSTM可以消除一些梯度消失的问题。

RNN和LSTM弱!爆!了!注意力模型才是王道
▲LSTM中的顺序处理

  从上图可以看出,这并没有解决全部问题。我们仍然有一条从过去单元到当前单元的顺序路径。事实上,这条路现在更复杂了,因为它有附加物,并且忽略了隶属于它上面的分支。

  毫无疑问LSTM和GRU(Gated Recurrent Uni,是LSTM的衍生)及其衍生能够记住大量更长期的信息!但是它们只能记住100个量级的序列,而不是1000个量级,或者更长的序列。

  还有一个RNN的问题是,训练它们对硬件的要求非常高。另外,在我们不需要训练这些网络快速的情况下,它仍需要大量资源。同样在云中运行这些模型也需要很多资源。

  考虑到语音到文本的需求正在迅速增长,云是不可扩展的。我们需要在边缘处进行处理,比如Amazon Echo上处理数据。

  该做什么?

  如果要避免顺序处理,那么我们可以找到“前进”或更好“回溯”单元,因为大部分时间我们处理实时因果数据,我们“回顾过去”并想知道其对未来决定的影响(“影响未来”)。在翻译句子或分析录制的视频时并非如此,例如,我们拥有完整的数据,并有足够的处理时间。这样的回溯/前进单元是神经网络注意力(Neural Attention)模型组。

  为此,通过结合多个神经网络注意力模型,“分层神经网络注意力编码器”出现了,如下图所示:

RNN和LSTM弱!爆!了!注意力模型才是王道
▲分层神经网络注意力编码器

  “回顾过去”的更好方式是使用注意力模型将过去编码向量汇总到语境矢量 CT中。

  请注意上面有一个注意力模型层次结构,它和神经网络层次结构非常相似。这也类似于下面的备注3中的时间卷积网络(TCN)。

  在分层神经网络注意力编码器中,多个注意力分层可以查看最近过去的一小部分,比如说100个向量,而上面的层可以查看这100个注意力模块,有效地整合100 x 100个向量的信息。这将分层神经网络注意力编码器的能力扩展到10,000个过去的向量。

  这才是“回顾过去”并能够“影响未来”的正确方式!

  但更重要的是查看表示向量传播到网络输出所需的路径长度:在分层网络中,它与log(N)成正比,其中N是层次结构层数。这与RNN需要做的T步骤形成对比,其中T是要记住的序列的最大长度,并且T >> N。

  跳过3-4步追溯信息比跳过100步要简单多了!

  这种体系结构跟神经网络图灵机很相似,但可以让神经网络通过注意力决定从内存中读出什么。这意味着一个实际的神经网络将决定哪些过去的向量对未来决策有重要性。

  但是存储到内存怎么样呢?上述体系结构将所有先前的表示存储在内存中,这与神经网络图灵机(NTM)不同。这可能是相当低效的:考虑将每帧的表示存储在视频中——大多数情况下,表示向量不会改变帧到帧,所以我们确实存储了太多相同的内容!

  我们可以做的是添加另一个单元来防止相关数据被存储。例如,不存储与以前存储的向量太相似的向量。但这确实只是一种破解的方法,最好的方法是让应用程序指导哪些向量应该保存或不保存。这是当前研究的重点

  看到如此多的公司仍然使用RNN/LSTM进行语音到文本的转换,我真的十分惊讶。许多人不知道这些网络是如此低效和不可扩展。

  训练RNN和LSTM的噩梦

  RNN和LSTM的训练是困难的,因为它们需要存储带宽绑定计算,这是硬件设计者最糟糕的噩梦,最终限制了神经网络解决方案的适用性。简而言之,LSTM需要每个单元4个线性层(MLP层)在每个序列时间步骤中运行。

  线性层需要大量的存储带宽来计算,事实上,它们不能使用许多计算单元,通常是因为系统没有足够的存储带宽来满足计算单元。而且很容易添加更多的计算单元,但是很难增加更多的存储带宽(注意芯片上有足够的线,从处理器到存储的长电线等)。

  因此,RNN/LSTM及其变种不是硬件加速的良好匹配,我们在这里之前和这里都讨论过这个问题。一个解决方案将在存储设备中计算出来,就像我们在FWDNXT上工作的一样。

  总而言之,抛弃RNN吧。注意力模型真的就是你需要的一切!

0
相关文章