我院科研工作取得阶段性进展,陈蔼祥老师的国家社科后期资助项目“统计视角下的深度学习技术研究”在获得立项不久后即成功地提前结项。该项目资助的由清华大学出版社出版的专著《深度学习》(http://www.tup.tsinghua.edu.cn/wap/tsxqy.aspx?id=08252301)已顺利地出版发行。
《深度学习》专著是继图灵奖得主 Yoshua Bengio等人的英文专著Deep learning(麻省理工大学出版社,2016)之后的一部原创中文专著。该专著全书共只有5章,但逻辑严密,内容紧凑, 涵盖了浅层模型、深度模型、卷积模型、反馈模型、长短期记忆模型、深度强化学习模型众多内容,是一部深度学习领域的前沿专著。为了能更直观地向读者展示深度学习技术背后的原理,本专著用了不少帮助读者理解的直观模型和简单易懂的例子:比如解释统计语言模型时使用的领导背诵秘书代写稿模型,介绍双向反馈网络模型时红楼梦男女两主角对话的例子,解释卷积神经网络时使用的手写体数字“7”识别的例子,解释神经元节点上下游误差时使用的珠江河水闸的例子,介绍马尔可夫决策模型时的荷塘跳蛙模型,介绍角色-评委算法时的多嘴教练-学徒模型,讲解围棋AlphaGo和AlphaGo Zero时的作战指挥部模型。这些模型和例子都属于作者原创。
本专著的特色或贡献主要体现在以下几个方面:
(1)统计学领域的各种回归\分类模型被归结为一个浅层特例纳入到深度模型的统一框架。
(2)深度模型的学习本质上被归结为一个数学优化问题。优化深度网络模型本身存在收敛速度慢等困难。本书在首创上游误差和下游误差概念基础上,提出用分层随机抽样策略代替传统的简单随机抽样。由此形成了通过抽样策略来加速网络训练的新的研究思路。
(3)深度模型在图像语音识别、自然语言理解、人机博弈等领域取得了超越人类能力的结果,但深度模型对人类而言仍然是一个无法理解的黑箱,人们对深度模型背后的原理尚缺乏足够认识。本书重要创新观点之一是通过对深度模型中的传递函数进行泰勒展开, 解释清楚了传递函数本质上起到了将低维属性空间到高维特征空间的变换作用,这为理解深度模型这一“黑箱”提供了新的视角。
(4)在对卷积这个概念进行通俗但深刻的解释基础上,通过柯西许瓦茨不等式解读埋藏在卷积神经网络背后的特征识别原理, 理解这个原理是理解整个网络的基石,这为理解深度模型这一“黑箱”提供了另一视角。
最后,祝贺陈蔼祥老师,也预祝陈蔼祥老师接下来在科研方面能取得更好的成绩。同时也希望我院其他教师积极参与科研活动,不断创造出优异的科研成果。