详情

基于机器学习的中国南北方水质等级预测

申报人:张笑颜 申报日期:2024-04-22

基本情况

2024
基于机器学习的中国南北方水质等级预测 学生申报
创新训练项目
工学
水利类
教师科研项目选题
一年期
建立不同区域的水质等级预测模型以解决高速发展带来的水质恶化问题,本研究将通过建立具有区域“决定性特征因子”的ML算法机器学习水质等级预测模型。我组将以中国环境监测总站全国水质自动监测平台上水质参数数据为训练数据,构建ML模型并进行模型评估,最终构建不同区域水质等级预测模型并研究水质等级的重要特征因子。

张晋教授长期从事城市水环境面源污染及环境归趋模拟、海绵城市与深度学习AI+等研究,指导国家级、省级、校级创训多项,在2023年度指导了题为海绵设施空间格局对城市内涝过程的管控模拟极端暴雨下城市内涝风险区识别与韧性策略应对的大学生创新创业项目并取得了不错的成果。此前也指导过海绵城市、水环境污染物有机磷酸酯迁移转化建模相关课题的大学生创新创业训练项目,具有丰富的创新创业训练项目经验。

1高性能计算机、服务器等硬件及相应软件;

2专业技术支持,包括指导老师和工程师;

3丰富的数据资源和学术资料;

4实验技能培训和科研指导;

5.一定的资金支持,用于数据收集、处理和硬件维修等。

校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
张笑颜 水文水资源学院 水文与水资源工程 2022 Origin绘图、论文撰写
黄智杰 水文水资源学院 水文与水资源工程 2022 爬虫技术、论文撰写
方艺凡 水文水资源学院 水文与水资源工程 2022 Arcgis绘图、论文撰写
王佳宁 水文水资源学院 水文与水资源工程 2022 爬虫技术、论文撰写
盛思媛 水文水资源学院 水文与水资源工程 2022 论文撰写

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
张晋 水灾害防御全国重点实验室党总支、水灾害防御全国重点实验室、长江保护与绿色发展研究院

立项依据

为了准确预测中国南北方水质等级,本研究使用多种ML算法建立模型,在所有构建的模型中对比选出合适的预测算法。同时,在模拟过程中采用聚类算法在建模前对水质参数进行预分类,以讨论数据量对预测效果的影响。此外,本研究将探讨输入变量的特征重要性。这对于科学合理地预测水质等级有着重要的意义。

基于建立不同区域的水质等级预测模型以解决高速发展带来的水质恶化问题,本研究将通过建立具有区域决定性特征水质因子ML算法机器学习水质等级预测模型。本研究将以中国环境监测总站全国自动监测平台上水质参数数据为训练数据,在建模前采用聚类算法对训练数据进行预分类,将实验数据划分为验证集和测试集。

具体工作如下:

1.     数据处理

首先,对训练数据进行时空匹配,并且对于数据的单位进行统一,方便后期的公式计算。在时间维度上,确保所有数据在时间范围(例如月、季度或年)内具有相同的时间粒度,对数据进行增删少补的处理。其次,对于数据进行归一化处理确保模型基于相同的标准来解释和评估所有的特征并降低数据维数以简化计算复杂程度。最后,通过交叉验证法(即不重复抽样将数据集D划分为k个互斥子集每次挑选其中1份作为测试集,剩余k-1份作为训练集,重复 k 次挑选测试集与余下部分作为训练集的步骤。得到 k 组测试结果的平均值作为模型精度的估计,并作为当前 k 折交叉验证下模型的性能指标)获得最佳的模型训练集、验证集及测试集的划分比例。

2.     模型构建

通过引入Python语言中的numpy库(用以所得数据矩阵进行预处理工作)、neurolab库(提供接口以构建和训练神经网络模型)及matplotlib.pyplot库(用以对模型数据可视化工作)来进行不同算法机器学习模型的构建。本研究将使用不同ML算法,例如长短期记忆LSTM(一种循环神经网络的变种,其单元由单元、输入门、输出门和遗忘门组成专门用于处理序列数据,在时间序列分析中其能够通过控制门状态实现在捕捉序列数据中的长期依赖关系时表现出更出色的性能。)、随机森林RF(一种由决策树组成的集成算法,其能够搜索随机特征子集中最重要的特征。)、支持向量机SVM(其寻求最大边距超平面,使之在训练周期的多维特征空间中与每边最近的数据点的距离最大。在分类中,利用超平面来区分不同类别的特征点。)等构建水质等级预测模型。

3.     算法对比

对建立完成的水质等级预测模型,输入测试集中的历史水质等级数据以及相关特征参数以输出判定时间节点之后一至两天的水质等级。对比不同ML算法模型的输出数据与验证集中的水质等级差值判定不同ML算法模型的准确性并计算模型的RMSE值以对比不同算法建立模型的鲁棒性。以模型准确性及鲁棒性判定优势算法,筛选出最优算法以应用到下一环节中的模型特征因子解释与分类。

4.     特征因子解释

通过对最优算法所得的水质等级预测模型进行增加或减少输入数据量以探究模型建立时输入数据量对于模型预测精准性的影响,并讨论极端降水数据对于水质等级预测的精确度是否有严重影响。探讨数据量对传统机器学习与深度学习的影响程度。运用SHAP算法(即对特征集合中某一特征因子(水温, pH,溶解氧,电导率,浊度,高锰酸盐指数,氨氮,总磷,总氮,叶绿素, 藻密度),计算该特征在预测上的差值来判定它对预测结果的边际贡献。计算该特征在所有特征组合的子集上的边际贡献的(加权)平均值,作为该特征的贡献量,即Shapley值)以解释不同特征因子模型建立过程中的贡献度,从而对模型输入特征因子的重要性进行排序。

5.     特征因子分类

利用SHAP算法所得到的不同区域所对应的决定性特征因子以探讨地理因素对于南北方、沿海内陆不同区域水质等级预测特征因子的影响。建立不同区域的水质等级预测模型并分类出不同区域的重要特征因子。

随着工业化和城镇化的快速发展,以湖泊、河流为主的地表水水污染状况变得非常严峻,尤以城市取水水源地水质污染状况最为严重,水污染问题已经被列入全球环境问题,成为环境科学领域研究的热点问题。据报道,中低城市化水平国家的平均城市化水平为57.75%,而中国在2020年达到63.9%。快速的城市化进程导致了不透水区域的扩张,阻碍了水的渗透,增加了城市地表径流的强度,并在干旱天气时期成为污染物藏垢的场所。降雨初期阶段污染物排放导致接收水体水质恶化,在持续的气候变化和持续的城市扩张的背景下,初期降雨阶段污染物排放造成的水质恶化引起了越来越多的关注。良好的水环境是人类社会经济可持续发展的前提和必备因素[1]在河流水环境不断被污染和破坏的前提下,水质的预测工作格外关键[6]。最近研究指出,机器学习在水质预测方面的应用应该引起足够重视。

机器学习(Machine LearningML)是机器从经验中自动学习和改进的过程,不需要人工编写程序指定规则和逻辑。近年来,机器学习作为人工智能领域的主流算法,在水务行业的数据量呈指数级增加,以机器学习为主流算法的人工智能技术在水务行业中的应用逐步得到拓展。基于机器或深度学习方法的数据驱动模型发展迅速,因为它适用于处理具有非线性和非平稳特性的实际径流序列。支持向量回归结合人工神经网络模型、随机森林和长短期记忆(LSTM)网络应用于多时间尺度的水质预测。多机器学习模型在预测水质方面优于单一模型,如基于人工蜂群算法的反向传播神经网络来预测水质指数。目前,国内外研究者通过建立了基于机器学习算法的水质预测模型[7]对水质数据进行科学有效地监测[8],并且利用现有水质数据对未来水质变化进行预测[9]。此外,为应对突发水质事件,一些研究团队致力于开发基于机器学习的实时水质监测与预警系统,将其广泛应用于城市供水管理、河流和湖泊监测等领域,并且已经取得了一定的成果。

虽然研究者利用优势算法所预测的水质数据与验证级的数据对比来验证并提高模型的准确性,但水质时间序列数据存在数据呈现出季节性、周期性、样本不平衡、附有大量噪声、波动无序的特点,这使得传统的异常检测及预测方法难以对水质时间序列数据进行建模[10]。针对水质监测数据的高维特性,国内研究者探索各种特征提取和选择方法,以提高模型的预测性能。总体而言,国内外在水质预测方面的机器学习研究都处于不断发展和探索的阶段,未来有望通过更加深入的研究和技术创新,提高水质预测的准确性和可靠性,为水环境保护和管理提供更好的支持。

主要参考文献及出处:

(1) R.A. Hill, C.C. Moore, J.M. Doyle, S.G. Leibowitz, P.L. Ringold, B. Rashleigh Estimating biotic integrity to capture existence value of freshwater ecosystems Proc. Natl. Acad. Sci. U. S. A., 120 (18)(2023), Article e2120259119

(2) Sheng Huang, Jun Xia, Yueling Wang, Jiarui Lei, Gangsheng Wang,Water quality prediction based on sparse dataset using enhanced machine learning,Environmental Science and Ecotechnology,2024,100402,ISSN 2666-4984

(3) Ismail Essamlali, Hasna Nhaila, Mohamed El Khaili,Advances in machine learning and IoT for water quality monitoring: A comprehensive review,Heliyon,2024,e27920,ISSN 2405-8440

(4) Maryam Imani, Md Mahmudul Hasan, Luiz Fernando Bittencourt, Kent McClymont, Zoran Kapelan,A novel machine learning application: Water quality resilience prediction Model,Science of The Total Environment,Volume 768,2021,144459,ISSN 0048-9697

(5) Wenbin Jiang, Beepana Pokharel, Lu Lin, Huiping Cao, Kenneth C. Carroll, Yanyan Zhang, Carlos Galdeano, Deepak A. Musale, Ganesh L. Ghurye, Pei Xu,Analysis and prediction of produced water quantity and quality in the Permian Basin using machine learning techniques,Science of The Total Environment,Volume 801,2021,149693,ISSN 0048-9697,

(6) 林闽微. 闽江流域水质预测模型研究[J]. 信息系统工程, 2023, (08): 124-127.

(7) 薛亚婷, 吴升伟, 王江涛. 基于机器学习算法的水质预测及相关算法比较研究[J]. 水资源开发与管理, 2023, 9 (07): 67-74+60.

(8) 季铁梅, 姚勇华, 葛婷婷, 杨喆. 基于Sentinel-2遥感数据的上海市河道水质参数反演研究[J]. 红外, 2023, 44 (11): 42-50.

(9) 李思敏,产青青,金鑫,.机器学习在水务行业中的应用现状与发展前景[J].水电能源科学,2024,42(03):43-48.DOI:10.20040/j.cnki.1000-7709.2024.20230789.

(10)徐鹏.基于深度学习的水质时间序列数据预测与异常检测研究[D].东莞理工学院,2023.DOI:10.44357/d.cnki.gdgut.2023.000067.

1.   学术思想和选题方面的特色和创新:

水体污染问题是国际研究热点问题。最近的研究表明,水质等级预测能够有效提高对水体状况的掌控,促进防护措施的制定与实施。近年来, 国内外已经有相关团队致力于开发基于机器学习的实时水质监测与预警系统,并取得了一定的成果。然而,目前利用机器学习系统性对比南北方水质等级的研究还鲜见报道,难以针对南北方不同的水质制定具体的防护措施。因此,本项目从机器算法角度,对南北方水质等级进行预测,在选题方面富有创新。

2.研究内容和成果方面的特色和创新:

研究通过建立水质等级分类预测模型,进行模型评估。此外还探讨了数据量增多对模型预测效果的影响,以及各输入变量的特征重要性。本研究的开展能够建立南北方不同区域水质等级预测模型,为后续研究影响水质等级的重要特征因子提供重要依据,在研究内容和成果方面富有创新。

1、技术路线

2、拟解决问题

(1)  建立做水质等级分类预测模型并对比各ML算法

(2)  探讨数据量增多对模型预测效果的影响

(3)  利用前面评价好的算法去预测后面一天两的水质并与实际情况做对比

(4)  输入变量的特征重要性及可解释机器学习

(5)  采用聚类算法在建模前进行预分类

(6)  南北方、沿海内陆水质对比,特征因子解释

3、预期成果

(1)  建立水质等级分类预测模型并对比各ML算法在水质分析中的优势和劣势

(2)  揭示数据量增多对模型预测效果的影响

(3)  研究影响水质等级的重要特征因子

(4)  发表学术论文1~2

 

2024.04-2024.05

完成基础理论学习

2024.04-2024.07

收集、整理、归一化数据,降低数据维数,更新和补充项目研究所需要的数据和资料

2024.08-2024.09

利用不同的ML算法构建水质等级预测模型

2024.10-2024.11

利用水质模型,输入历史水质等级数据以及相关特征参数以输出水质结果,并通过对比不同ML算法建立的预测模型得出优势算法

2024.12-2025.01

探究模型建立时输入数据量对模型影响,并运用SHAP算法对模型重要输入特征因子进行排序

2025.01-2025.03

建立不同地域的水质等级预测模型并分类出不同区域的重要特征因子

2025.04-2025.05

撰写相关研究论文,并完成项目结题报告

1.1前期理论学习

申请人已修读完成自然地理学课程,同时正在学习气象学,生态学,地理信息系统与遥感应用等与项目相关的课程、同时申请人已研读关于ML算法(长短期记忆、随机森林、支持向量机等)的高质量学术论文四十余篇,对不同类型的ML算法有较为深入的了解,了解arcgisorigin等软件的应用方法,学习了数据整理与数据归一化算法的基本方法,学习利用输出数据计算模型R2 RMSE值,学习特征因子解释等相关内容

1.2数据收集

202311月起,我组成员坚持收集全国各大流域百余条河流的水温、水质类别、pH、溶解氧、电导率、浊度、高锰酸钾指数、氨氮、总磷、总氮等河流基本信息,频率保持每四小时一次,至今已有十三万余组数据,拥有充足的数据支持。

1.3技术指导

河海大学水文水资源学院张晋教授不仅为提升申请人的科研创新能力和发表学术论文提供必要的指导,也为本项目提供构建模型、解释相关因子等相关方面的理论与技术指导。

申请人所在的课题组提供了高性能计算机、服务器等硬件,专业技术支持(包括指导老师和工程师),丰富的数据资源和学术资料,专业的实验技能培训和学术指导,提供了一个完善的科研环境,促进学生的实践和创新能力发展。

申请人所在的水文水资源学院提供了较为齐全和完善的室内实验条件和办公条件,学校图书馆拥有丰富的专业书籍、期刊、电子文献和数据库等,能更好的满足项目的研究需求。

尚缺少的条件及解决方法:

申请人理论学习还不够深入,基础理论不够扎实,不能熟练构建需要的模型,不能精确分析数据,不能熟练使用专业软件进行绘图,应继续修读相关论文,查阅相关资料,提升自身水平,扎实理论基础,积极向老师前辈请教,积极学习机器模型构建方法,并进行有效的水质预测。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 1500.00 进行水质预测研究 1320.00 180.00
1. 业务费 500.00 业务相关的费用 320.00 180.00
(1)计算、分析、测试费 100.00 计算水质参数等产生的费用 60.00 40.00
(2)能源动力费 100.00 用于能源动力方面的费用 70.00 30.00
(3)会议、差旅费 100.00 用于进行会议产生的相关费用 70.00 30.00
(4)文献检索费 100.00 用于水质预测相关文件的检索 60.00 40.00
(5)论文出版费 100.00 水质预测论文出版的费用 60.00 40.00
2. 仪器设备购置费 300.00 购买水质预测所需仪器 300.00 0.00
3. 实验装置试制费 300.00 购买水质预测所需实验装置 300.00 0.00
4. 材料费 400.00 购买水质预测所需材料 400.00 0.00
结束