科技资讯英伟达工程师解读NeurIPS 2019最热趋势:贝叶斯深度学习

科技资讯 2020-03-26133未知admin

  51个研讨会,1428篇接收论文,13000名参会者,这就是今年的NeurIPS会议。

  这个一年一度的大型AI顶会,了当前AI研究的哪些趋势呢?来自英伟达人工智能应用团队的计算机科学家Chip Huyen近日写了一篇非常干货的总结。

  本文内容包括:

  1. 解构深度学习的黑盒子

  2. 深度学习的新方法

  2.1 使用贝叶斯原理进行深度学习

  2.2 图神经网络

  3. 神经科学x机器学习

  4. 关键词

  解构深度学习的黑盒子

  最近,有很多关于深度学习局限性的讨论。举几个例子:

  Facebook的AI负责人Jerome Pesenti对计算能力的感到担忧。他认为企业不应指望仅靠更大的深度学习系统就能不断取得进展,因为“目前一个实验的成本可能是 7 位数,但不会达到 9 位数或 10 位数,不然没人能负担得起。”

  Yoshua Bengio引用加里·马库斯(Gary Marcus),指出了深度学习的局限性。Bengio将马库斯的观点总结为“看,深度学习行不通。”

  Yann Lecun也谈到这一趋势:“我不明白为什么突然之间,科技资讯出现很多报道和推文说’人工智能的发展正在变缓’和’深度学习正在碰壁’……我五年前就几乎在每次中都指出深度学习存在的和挑战了,所以,认识到存在这些并不是什么新鲜事,而且人工智能的发展也没有放缓。”

  在这种下,我们很高兴看到大量的论文在探索深度学习背后的理论和原理。在今年的NeurIPS上,有31篇论文主题关于各种技术融合。杰出新方向论文颁给了Vaishnavh Nagarajan和J. Zico Kolter的《一致理论可能无释深度学习中的泛化现象》(Uniform convergence y be unable to explain generalization in deep learning),其论点是一致理论本身并不能解释深度学习泛化的能力。科技资讯随着数据集大小的增加,泛化差距(模型对可见和不可见数据的性能差距)的理论界限也会增加,而经验泛化差距则会减小。

  神经正切核(neural tangent kernel, NTK)是近年来研究神经网络优化与泛化的一个新方向。它出现在数个spotlight报告和我在NeuIPS与许多人的对话中。Arthur Jacot等人基于完全连通神经网络在无限宽度下等同于高斯过程这一众所周知的概念,在函数空间而非参数空间中研究了其训练动力学。他们证明了“在神经网络参数的梯度下降过程中,网络函数(将输入向量映射到输出向量)遵循函数的核函数梯度成本,关于一个新的核:NTK。”他们还表明,当有限层版本的NTK经过梯度下降训练时,其性能会到无限宽度NTK,然后在训练期间保持不变。

  但是,许多人认为NTK不能完全解释深度学习。神经网络接近NTK状态所需要的超参数设置——低学习率、大的初始化、值衰减——在实践中通常不用于训练神经网络。NTK的观点还指出,神经网络只会像kernel方法一样泛化,但从经验上看,它们可以更好地泛化。

  许多论文了神经网络的不同组件的行为。Chulhee Yun等人发表“小型ReLU网络是强大的记忆器:对记忆能力的严格”,表明“具有Omega(sqrt(N))隐藏节点的3层ReLU网络可以完美地记忆具有N个点的大多数数据集。”

  Shirin Jalali等人的论文《高斯混合模型的高效深度学习》(Efficient Deep Learning of Gaussian mix Models)从这个问题引入:“通用逼近指出,任何正则函数都可以使用单个隐藏层神经网络进行逼近。深度是否能让它更具效率?”他们指出,在高斯混合模型的最佳贝叶斯分类的情况下,这样的函数可以用具有一个隐藏层的神经网络中的O(exp(n))节点来近似,而在两层网络中只有O(n)节点。

  虽然这些理论很吸引人,也很重要,但很难将它们归纳成一个整体,因为它们都只关注系统的一个很窄的方面。

  备受瞩目的深度学习新方法:贝叶斯深度学习、GNN、凸优化

  今年,NeurIPS的论文出现了很多新方法,我感兴趣的三个方向是:贝叶斯学习、图神经网络和凸优化。

  基于贝叶斯原理的深度学习

  正如Emtiyaz Khan在他的受邀《基于贝叶斯原理的深度学习》中所强调的那样,贝叶斯学习和深度学习常不同的。根据Khan的说法,深度学习使用“试错”(trial and error)的方法——看实验会把我们带向何方——而贝叶斯原理你事先思考假设(先验)。

  与常规的深度学习相比,贝叶斯深度学习主要有两个吸引人的点:不确定性估计和对小数据集的更好的泛化。在实际应用中,仅凭系统做出预测是不够的。知道每个预测的确定性很重要。在贝叶斯学习中,不确定性估计是一个内置特性。

  传统的神经网络给出单点估计——使用一组权值在数据点上输出预测。另一方面,贝叶斯神经网络使用网络权值上的概率分布,并输出该分布中所有权值集的平均预测,其效果与许多神经网络上的平均预测相同。因此,贝叶斯神经网络是自然的体,它的作用类似于正则化,可以防止过拟合。

  拥有数百万个参数的贝叶斯神经网络的训练在计算上仍然很昂贵。到一个后验值可能需要数周时间,因此诸如变分推理之类的近似方法已经变得流行起来。Probabilistic Methods – Variational Inference类发表了10篇关于这种变分贝叶斯方法的论文。

  我推荐阅读的关于贝叶斯深度学习的NeurIPS论文如下:

  多年来,我一直说图理论是机器学习中最被低估的主题之一。很高兴看到graph在今年的NeurIPS上非常流行。

  对于许多类型的数据,例如社交网络、知识库和游戏状态,图(graphs)是美丽而自然的表示。用于推荐系统的用户项数据可以表示为一个二分图,其中一个不相交集由用户组成,另一个由项组成。

  图也可以表示神经网络的输出。正如Yoshua Bengio在他的特邀中强调的,任何联合分布都可以表示为一个因子图。

  这使得图神经网络(graph neural network)非常适合于组合优化(例如旅行推销员、日程安排)、身份匹配(这个Twitter用户和这个Facebook用户是同一个人吗)、推荐系统等任务。

  最受欢迎的图神经网络是图卷积神经网络(GCNN),这可以理解,因为它们都对局部信息进行编码。卷积倾向于寻找输入相邻部分之间的关系。图通过边对输入中最相关的部分进行编码。

  我喜欢的一些关于GNN的论文:

  神经科学x机器学习

  在受邀的中, Yoshua Bengio的“从系统1深度学习到系统2深度学习”和Blaise Aguera y Arcas的“智能”都敦促机器学习社区更多地思考自然智能的生物学根源。

  推荐阅读:

  Bengio的将意识引入了主流机器学习词汇中。Bengio认为意识的核心要素是注意力。他将机器的注意力机制比作我们的大脑选择注意力的方式:“机器学习可以用来帮助脑科学家更好地理解意识,但我们对意识的理解也可以帮助机器学习发展出更好的能力。”根据Bengio的观点,如果我们希望机器学习算法能够推广到分布样本之外,那么式方法是可行的。

  Aguera y Arcas的是我在大会上最喜欢的。他认为,优化并不足以捕获类人智能:“优化不是生活的运作方式……大脑不只是评估一个功能。它们会发展。它们会修改。它们从经验中学习。函数没有这些东西。”他呼吁“一个更通用的、受生物学的突触更新规则(synapse update rule),该规则允许但不要求损失函数和梯度下降”。

  NeurIPS上的这一趋势与我的观察一致,科技资讯即人工智能领域有许多人正在转向神经科学。他们把神经科学带到了机器学习中。

  让我们来看看这次会议论文的全局视角。我首先使用vennclouds可视化了NeurIPS 2018的1011篇论文和NeurIPS 2019的1428篇论文。中间的黑域是2018年和2019年论文同的关键词。

  然后,我计算了2018年到2019年这些关键词的比例变化。例如,如果在2018年,所有被录取的论文中有1%的关键词是“X”,而在2019年,这个数字是2%,那么比例变化是(2 - 1)/ 1 = 100%。我绘制了绝对比例变化至少为20%的

原文标题:科技资讯英伟达工程师解读NeurIPS 2019最热趋势:贝叶斯深度学习 网址:http://www.night-storm.com/kejizixun/2020/0326/23242.html

Copyright © 2002-2020 后继有人新闻网 www.night-storm.com 版权所有  

联系QQ:1352848661