神经网络无监督学习的相关统计物理研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
11805284
项目类别：
青年科学基金项目
资助金额：
25.0万
负责人：
黄海平
依托单位：
中山大学
学科分类：
A2503.统计物理与复杂系统
结题年份：
2021
批准年份：
2018
项目状态：
已结题
起止时间：
2019-01-01 至2021-12-31

项目参与者：
--
关键词：
神经网络脑科学无监督学习平均场理论相变

项目摘要

A deep neural network is a multi-layered neural architecture performing hierarchical non-linear transformation of input data. Deep neural networks, originally inspired from hierarchical architectures in neuroscience, are now powerful tools of wide applications in a variety of domains, ranging from image classification, speech recognition, to natural language processing, and even physics studies in recent years. However, the nested non-linear structure makes deep neural networks highly non-transparent, and therefore deep neural networks remain black boxes. In particular, unsupervised learning, as one important branch, aims at revealing hidden structure in the data without label information. To figure out what learning principles may be used for modeling external world in an unsupervised way can not only shed light on designing machine intelligence, but also have important implications on energy-efficient neuromorphic computations. In this project, we focus on restricted Boltzmann machine, a two-layer feed-forward architecture, and its deep variants, and study how the model works and how its components (e.g., neurons, synapses, and even layers) interact to yield the network's expressive power. We will use physics-based approximations to identify key computational principles of representation learning (feature extraction), which may pave the way towards understanding information processing mechanisms of (deep) unsupervised learning systems, designing new types of architectures and algorithms, and developing associated mean-field theory.

近年来，神经网络作为强大的工具广泛应用于模式识别，语音识别，自然语言处理，甚至是多体物理研究等领域。神经网络对大数据的分析能力经验上认为来源于其深层表征，但由于网络本身嵌套的多层非线性计算等复杂性，神经计算的工作原理仍然是一个黑箱；而无监督学习作为神经计算最重要的研究方向之一，其目标是揭示原始（无标签）数据中的隐藏结构。对于无监督学习多层表征工作机制的理解将有可能打开理解感知学习基本规律的大门。因此，本研究项目将以无监督学习的基本神经网络架构---受限玻尔兹曼机及其深层堆叠为基本研究对象，运用甚至发展平均场理论阐述该模型工作的机理，即组成网络的神经元，神经突触连接，以及隐层间是如何相互作用的。基于物理近似的原则，本研究项目有望不仅能从原理上理解神经计算规则，而且能进一步改进模型，从而推进神经网络在无标签数据隐藏特征提取中的应用，并且为最终揭示无监督学习的信息处理机制打下基础。

结项摘要

该青年基金项目主要研究无监督学习（包括深度表示）的物理本质及其第一性原理启发的算法。在该基金的资助下，3年来项目负责人课题组取得了一系列突破。（1）阐述了浅层无监督学习的物理本质。数据驱动模型出现一系列自发对称性破缺：首先是自旋反转对称性破缺，最后是神经元交换对称性破缺。而且，关于数据规律的先验强烈影响两类对称性破缺的位置和形式。这些成果总结在了J. Phys. A 长文形式和Phys Rev Lett 短文形式。（2）由原理启发提出了无监督学习的变分平均场算法。该算法为处理离散权重值受限玻尔兹曼机的第一个算法，发现了无监督学习的等价网络，揭示了数据、权重和神经元活动三者在学习过程中的相互作用形式。这些成果总结在了Phys Rev E快速通讯形式。（3）循环无监督学习的规范变换对称破缺模型。该模型囊括了经典Hopfield，短程延迟赫布模型，揭示了记忆景观可由微观突触整合时间窗口重塑，并且，发现了超越经典MP律的新型随机矩阵谱。这些成果以两篇长文形式在Phys Rev E背靠背发表。（4）深度学习的物理模型。首先，项目负责人课题组阐述了考虑权重关联的无监督深度网络的平均场理论机制，发现了权重关联不仅可以增强逐层的神经元活动关联水平，也可以减弱逐层维度下降的强度。理论预言与经验结果一致，总结在了Phys Rev E长文形式。其次，项目负责人课题组从统计系综角度构建了深度学习的信用分配物理模型，解释了深度网络的宏观输出与网络参数涨落之间的因果联系，这些成果总结在Phys Rev Lett 短文形式。最后，项目负责人课题组还提出了深度学习权重空间的近似伊辛模型，理论预言了深度学习液态内核的存在并在具体算法设计进行了验证，这些成果总结在Phys Rev Research长文。该青年基金项目从科学上解释了浅层无监督学习的本质，并启发了深度学习模型的构建和系统分析，对未来更加深入系统的工作机制探究具有指导意义。这一系列研究成果汇集成了英文专著《神经网络的统计力学》于2022年由Springer和高等教育出版社联合出版。.