应兰州大学数学与统计学院邀请,上海交通大学许志钦副教授将于2025年5月21-22日访问兰州大学,期间举办专题学术报告,欢迎全校师生参加。
报告题目:通过凝聚现象理解语言模型的推理与记忆
时 间:2025年5月22日(星期四)8:30.
地 点:理工楼 401
报告摘要:本报告将从现象驱动的角度切入,介绍神经网络在非线性训练区域的凝聚现象,即同层神经元具有趋同的现象。当模型参数在训练初始化阶段的尺度越小,凝聚现象会越明显。凝聚能够降低模型的有效复杂度。基于此,我们发现参数初始化对模型的推理和记忆有显著影响。当Transformer的网络参数初始化较大时,有效复杂度大,模型有足够大的复杂度能够记忆数据。当初始化较小时,参数凝聚使网络的有效复杂度显著降低。为了满足低复杂度的限制,网络通过学习尽量少的规律,以推理的方式拟合数据。
欢迎广大师生光临!
报告人简介
许志钦,上海交通大学自然科学研究院/数学科学学院长聘副教授。2012年本科毕业于上海交通大学致远学院。2016年博士毕业于上海交通大学,获应用数学博士学位。 2016年至2019年,在纽约大学阿布扎比分校和柯朗研究所做博士后。现为 Journal of Machine Learning的managing editor。
甘肃应用数学中心
数学与统计学院
萃英学院
2025年5月19日