二次无机气溶胶是大气细颗粒物(PM2.5)的重要组分,其快速生成与积累往往是冬季重污染天气出现的关键因素。传统的空气质量数值模式由于输入数据的不确定性和模式内部物理化学机制模拟方案的不完善,导致二次无机气溶胶模拟仍然具有较大的不确定性。
针对这一难题,大气所唐晓课题组构建了一个基于层叠泛化算法(Stacked Generalization)的机器学习集成模型,实现多个机器学习模型(RF、LGBM)的集成。利用气象模拟、污染物模拟、排放源清单、地形、二次无机气溶胶地面观测数据进行模型训练,实现了对嵌套网格空气质量预报模式(NAQPMS)模拟的2020年1~3月京津冀二次无机气溶胶模拟浓度场的订正。试验结果表明机器学习集成模型能有效提高京津冀二次无机气溶胶模拟精度,其不仅能改进观测所在站点的模拟,也能改进空间分布模拟,使得模拟浓度的均方根误差下降30%以上。集成模型相较于单一的机器学习模型在综合统计指标上表现更优,特别是在污染程度重的区域。该研究为改进二次无机气溶胶模拟提供了一种新的方法,揭示了机器学习模型在观测数据稀缺时改进气溶胶模拟的潜力。
该论文第一作者为中国科学院大气物理研究所硕士生丁宁,通讯作者为唐晓正高级工程师。该成果近期在线发表于Atmospheric Environment期刊,研究得到了国家自然科学基金(Grant No. 42175132)、国家重点研发计划(Grant No. 2022YFC370270)、中国科学院网络安全和信息化专项(Grant No. CAS-WX2021SF-0107-02)和国家重大科技基础设施“地球系统数值模拟装置”(EarthLab)的共同资助和支持。
图1机器学习集成模型的流程示意图
图2 机器学习集成模型与空气质量数值模式(NAQPMS)、单机器学习模型(RF、LGBM)精度评估的泰勒图
论文信息:
Ding,N.,Tang,X.,Wu,H.,Kong,L.,Dao,X.,Wang,Z.,Zhu,J.,2024. Development of an integrated machine learning model to improve the secondary inorganic aerosol simulation over the Beijing–Tianjin–Hebei region. Atmospheric Environment,327,120483. https://doi.org/10.1016/j.atmosenv.2024.120483
转自:http://iap.cas.cn/gb/xwdt/kyjz/202404/t20240408_7083602.html