重塑千禧年代_渔雪_249 弱小（4k）

　　 249 弱小（4k） (第2/3页)

网络的论文，也正是在这之后，相关的研究出现了爆炸式的增长。

    吴恩达与席尔瓦谈的是在alexnet之后的架构创新，是将传统的搜索算法与深度学习模型的有效整合，以及，整个团队在局部感受野、参数共享与稀疏连接、平移不变性这些方面做出的努力。

    这种易科与谷歌以及场下嘉宾的交流极其愉快，也让方卓颇为满意，他虽然不懂，但瞧着这样的场面就觉得知识被塞进了脑子里。

    只是，等到第二天，当吴恩达提出团队在研发上的困惑时，激烈的辩论到来了。

    易科是有“siri”这样的语音助手作为人工智能的实践，而吴恩达的团队不仅在做卷积神经网络cnn的研究，也在做循环神经网络rnn的研究，他们认为后者更适合与语音助手相结合，但效果并不算很好，完全达不到想要的成绩。

    问题出在哪里？

    吴恩达表述了困惑，也谈了谈易科内部的解决方向。

    参会的一部分人赞同易科的解题思路，但谷歌方面却出现了不同的声音。

    “为什么非要使用循环神经网络？”谷歌的乌思克尔特本来正在休假，但因为对dl的交流感兴趣便报名过来，“为什么不试试自注意力self-attention？我认为它对nlp领域将会有更优秀的改变。”

    “self-attention可以进行更好的并行计算能力，而不是像rnn那样进行顺序处理，它还能直接比较序列中任意两个位置的向量表示，这样就能更有效的捕捉和利用长距离依赖关系，但rnn不行！”

    “rnn虽然理论上也能捕捉长距离依赖，但实际上往往因梯度消失或爆炸问题而难以实现！”

    乌思克尔特研究的是谷歌的机器翻译改进方法，他的父亲就是计算语言学的教授，尽管刚开始进入谷歌时对语言翻译的工作很不喜欢，但最终还是专注于这一领域的研究，而他近期正在琢磨的便是“自注意力self-attention”在相关领域的改善。

    吴恩达很快明白这位谷歌研究员的意思，也在几经思索后给予反驳：“自注意力没有显式地编码位置信息，这就意味着如果以它为核心的模型无法区分序列中相同词语在不同位置的意义差异，而在自然语言的处理中，词语的语义又与位置紧密相关。”

    “而且，自注意力模型必然因为序列中每对元素计算的注意力权重而有巨大的参数量，这极可能导致过拟合。”

    他这边刚说话，谷歌自家dl的席尔瓦也反驳了乌思克尔特提出的新路线，其中一个重要原因在于rnn的循环结构太符合大家对序列数据处理的理解，即当前状态依赖于过去的信息，而自注意力的全局依赖一看就不如rnn直观。

    易科与谷歌的两大领导者都批评了自注意力self-attention，但乌思克尔特并不服气，他直接登台阐述自己更多的想法。

    而且，针对吴恩达与席尔瓦抨击的缺点也给出一些解决思路，比如，引入位置编码，比如，进行多头注意力的研究。

    有人觉得眼前一亮，有人觉得异想天开，还有人现场进行快速的分析和演算。

    第一排的方卓极其茫然，他扭头询问旁边沉思的英伟达掌门人黄仁勋：“他们在讨论什么？”

    “乌思克尔特说，gpu是最适合深度学习技术的硬件。”黄仁勋给出一句总结。

    方卓：“？？？”

    他纳闷道：“我怎么完全没听到类似的表述？”

    “因为自注意力self-attention更加强调并行处理，这是gpu更擅长的。”黄仁勋笑道，“至于其他的，不重要，我们只要提取对我们有利的就好。”

    方卓观察着现场的气氛，这已经不是知识的交流，更像是知识的火拼了。

    他默默的收起自己在这种场合本就不多的存在感。

    只是，等到晚上，方卓还是当面询问了这次参与辩论的吴恩达，想知道这场面红耳赤的讨论都有些什么东西。

    吴恩达真的很难和方总解释发生了什么。

    “方总，等我们想一想再写一份报告吧。”他思考许久之后由衷的说道，“这样的交流或许应该多来几次，他那个自注意力，我现在想想，缺点也不是不能解决。”

    方卓耐心的询问：“那我们应该做些什么？”

    吴恩达回味今天的整场辩论，思考着不同人提出的不同想法，喃喃道：“或许，我们需要先试试一种新型软件，让它可以和计算机对话。”

    方卓“嗯”了一声，表达一贯的支持：“行，开始吧。”

    吴