欢迎进入 兰州大学数学与统计学院

当前位置: 首页 > 学术交流 > 正文

"九章讲坛"第858讲 — 荆炳义 教授

日期:2024-07-22点击数:

应数学与统计学院概率统计研究所邀请,南方科技大学荆炳义教授将于2024年7月25日上午进行学术报告,欢迎全校师生参加。

报告题目:大模型训练中的数据选择

时 间:7月25日(星期四)上午11:20

地点:腾讯会议(会议ID:317523597)

报告摘要:大模型的训练通常需要使用互联网级别的海量数据。然而,Scaling Law表明,数据质量对模型性能至关重要。因此,如何从这些海量数据中筛选出高质量的样本成为一个关键问题。为了解决这一挑战,我们从底层训练框架出发,重新设计了数据在训练过程中的生命周期。这使得我们能够在训练的不同阶段引入不同的数据选择策略,以便模型能够选择最适合的数据。此外,我们还实现了一种基于学习的探索策略,使得模型能够自主进行数据筛选,从而进一步提高训练效率和模型性能。这些改进优化了数据筛选过程,同时为大模型训练提供了更加灵活和智能的解决方案。

欢迎广大师生参加!


报告人简介

荆炳义,南方科技大学统计与数据科学系讲席教授,国家特聘专家,国家自然科学奖二等奖获得者,教育部长江学者讲座教授,及两年度(2010,2015)获教育部高等学校自然科学奖二等奖。荆炳义教授是美国统计学会(ASA)和国际数理统计学会(IMS)会士(Fellow),国际统计学会(ISI)推选会员(ElectedMember),泛华统计协会理事会成员。他是中国现场统计研究会多元分析应用专业委员会理事长,并先后分别担任Ann Appl Probab, JBES,《中国科学》等七家国际学术期刊副主编。荆教授研究兴趣广泛,主要研究领域为:强化学习、机器学习与人工智能、社交网络、生物信息、金融统计、概率论与数理统计,他在各领域中有许多开创性研究,取得了很多突破性科研成果,已在Annals of Statistics, Annals of Probability, Journal of American Statistical Association, Journal of Royal Statistical Society Series B, Biometrika, Journal of Econometrics, Journal of Business and Economic Statistics, Bioinformatics,Journal of Machine Learning Research,《中国科学》,NeurIPS等顶级期刊及顶会发表论文100余篇。此外,荆教授与产业界合作紧密,于2023年获华为“火花奖”。


甘肃应用数学中心

甘肃省高校应用数学与复杂系统省级重点实验室

兰州大学大数据科学研究中心

兰州大学数学与统计学院

兰州大学萃英学院

二〇二四年七月二十二日