1.获“节能减排社会实践与科技竞赛”校二等奖
2.任理学院“蓝藻的光谱测量与预警”科普专题项目主要成员3.在《当代化工学报》发表文章《光谱法测量水体特征污染物的研究》
1.获“节能减排社会实践与科技竞赛”校二等奖
2.任理学院“蓝藻的光谱测量与预警”科普专题项目主要成员3.在《当代化工学报》发表文章《光谱法测量水体特征污染物的研究》
序号 | 学生 | 所属学院 | 专业 | 年级 | 项目中的分工 | 成员类型 |
---|---|---|---|---|---|---|
|
张琳芸 | 环境学院 | 环境科学 | 2022 | 理论分析 数据处理 |
|
|
张荣欣 | 环境学院 | 环境科学 | 2022 | 数据收集 模型验证 |
|
|
袁梦婷 | 环境学院 | 环境科学 | 2022 | 模型选择 数据处理 |
|
序号 | 教师姓名 | 所属学院 | 是否企业导师 | 教师类型 |
---|---|---|---|---|
|
倪利晓 | 环境学院 | 否 |
|
(1)研究目的
溶解性有机质(DOM)是具有不同官能团和分子结构的芳香族和脂肪族有机化合物的复杂集合,广泛存在于天然水体中,是水生态系统的重要组成部分。水生环境中的DOM会经历好氧降解,导致氧气耗尽甚至厌氧条件,导致水质恶化。作为水生生态系统中必不可少的且容易获得的碳源,其存在影响着天然水体的物理化学性质、水生态系统的物质能量循环、微生物群落结构、水环境污染物的形态结构、毒性以及生物有效性等[1],对于水生态系统健康具有重要意义。尽管水生DOM性质受其内在分子大小、结构和功能的影响,但外部环境因素(水文、光照、温度、pH等)的影响可能是更加重要的[2,3]。
如图1,碳循环是地球上生物圈、岩石圈、水圈和大气圈之间碳元素的交换和循环过程。碳循环涉及多个环节,DOM作为其的重要载体,承担着不容小觑的作用。21世纪以来,人类活动对内陆流域产生了深远影响,进而影响水生DOM的来源与性质。一方面,人类活动产生的废水直接将人为源性质的DOM输入内陆水体;另一方面,人类活动通过改变土地利用类型改变内陆水体自身性质,环境因素的改变间接影响DOM性质[4,5]。
图1:地表、水体、大气碳循环示意图
已有的共识是,在流域范围内,人类活动强度的增加倾向于增强水生DOM内源性和陆地DOM输入,并加速水生DOM转化和生物降解[6,7]。然而在小尺度下,不同流域的气候、水文、人类活动特征各不相同,对于单一流域而言,人类活动对水生DOM性质的影响具有特殊性[8,9]。而局限于仪器、时间和经济成本问题,大规模的水生DOM调查较为困难,加之大尺度下DOM性质与人类活动的关系更加复杂,简单机器模型可能较难解释二者的关系。因此,引入新的方法在更大尺度下研究人类活动对水生DOM性质的影响是非常有必要的,这有助于理解大尺度下人类活动和环境因素耦合作用下未来水生碳库的动态循环模式。
2.1 水生DOM的分布规律
为了深入了解全球内陆水体中DOM的分布特征,重点研究了DOM的光学性质,包括溶解性有机碳(DOC)浓度、荧光指数(FI)、腐质化指数(HIX)、自生源指数(BIX)、芳香性指数(SUVA254)。这些参数不仅反映了DOM的来源和组成,还能揭示其在不同水体中的变化趋势。通过全球尺度的样本收集与分析,我们能够构建一个综合的DOM分布图谱,该图谱考虑了水体的自身属性、周边土地使用模式以及降水等自然因素的影响。
2.2分析水生DOM的影响因素
在对DOM的影响因素进行研究时,我们面临的挑战是,环境因素在全球范围内的巨大差异及其对DOM光谱性质的显著影响。目前由于人类活动,人类因素对DOM也有很大影响。为减少极端环境因子造成的数据偏差,采用了基于地理位置排序的光谱数据空间序列降噪方法。具体实施方法包括:将光谱数据按照经纬度进行排序,并利用自适应噪声完备集合经验模态分解(CEEMDAN)算法对数据进行预处理,从而提高机器学习模型的预测准确率。
2.3 预测具体流域的水生DOM分布
在预测具体流域DOM特征时,采用了多种机器学习模型,如随机森林(RF)、梯度提升回归树(GBRT)、支持向量机(SVM)和线性模型(LM),并通过指标如均方根误差(RMSE)、平均绝对误差(MAE)和决定系数(R²)来评估模型性能。通过CEEMDAN算法从原始数据中提取出的内在模态函数(IMFs)被用于进一步优化模型表现,最终选择性能最佳的IMF和ML模型组合,以实现精确预测。在过程中,还需要利用路径方程模型(SEM)对多种因素同时产生的直接和间接效应进行分析,以揭示人类活动和不同环境因素如何共同作用于内陆水生DOM的分布和变化。
3.1 水生环境中DOM的动态和影响因素
现有的源分析表明,DOM可分为水性环境中的内源性DOM和外源性DOM(图3)。内源性DOM主要来自水体中藻类,水生植物和微生物的降解[10]。最近的证据表明,微生物降解产物DOM的芳构化程度较低,有机氮含量较高。相比之下,已知外源DOM具有较高的芳烃含量和腐殖化程度,主要来自植物或动物残留物、土壤有机质和人类活动,从而通过土壤侵蚀和地表径流进入水体[11,12]。
图2:DOM在水生环境中的来源[13]
最新研究表明,环境因素对DOM分子的组成也至关重要。例如,pH值和地理纬度会影响DOM的分子组成,在高纬度地区,DOM中的小分子、含氮化合物和不饱和C=C官能团的丰度更高。先前的研究结果表明,在小尺度的流域范围内,人类活动通过不同的途径调节DOM的组分与分布情况。水质参数与流域土地利用类型和社会经济参数呈现显著的相关性,表明人类活动可能对DOM分布产生间接影响。河流生态系统与邻近的陆地环境相互作用并耦合,并从多个来源接收 DOM,包括陆地输入、人为排放和原位生产。河流作为DOM运输、利用和储存的连续载体,显示出DOM的空间变异性。因此,流域土地利用类型、人类活动、水质特性、河流DOM输运时间等复杂条件被认为是影响DOM分布格局的因素[14]。
图3:DOM循环机理图
3.2 DOM表征:光学性质分析及PARAFAC应用
在过去50年中,国内外学者利用光学性质(即吸光度和荧光光谱)对DOM的表征进行了大量工作。事实上,使用这些光学特性是大多数科学家和工程师描述DOM的主要方法[15]。目前,对DOM的表征以紫外-可见吸收光谱(UV-vis)和三维荧光光谱(EEM)技术为主,紫外-可见吸收光谱的最大优点是灵敏度高,简便快捷,经济效益高,扫描范围广泛,有利于分析DOM的饱和程度、共轭程度以及空间结构[16];荧光发射-激发矩阵光谱的优点是能够通过DOM荧光特性进行源解析,并通过不同组分荧光特性识别DOM组分变化[17]。
平行因子分析(PARAFAC)是一种多维数据分析方法,可以用来分析多光谱的荧光数据,水质监测的数据等。例如,通过应用PARAFAC模型对水样中的荧光光谱数据进行分析,可以识别并量化水体中的有机物成分。这种方法可以提供关于这些有机物的来源、结构和浓度的信息,对于理解环境过程和污染问题至关重要。
3.3 机器学习与模态分解技术在动态预测中的应用
近年来,随着机器学习模型理论的不断发展、多源监测体系的不断完善和大数据共享程度的提高,机器学习模型在处理复杂非线性问题的优势逐渐体现[18-20]。在水质预测方面,常用的机器学习模型有:人工神经网络(ANN)、循环神经网络(RNN)、决策树(DT)等。其中RNN的变体——长短时间记忆网络(LSTM)是最常用的模型之一。它可以捕获长期依赖关系,并有效地避免了传统递归神经网络中的梯度消失问题,因此更适合于时间序列预测[21,22]。然而,影响水质的因素较为复杂,单一的LSTM模型提取影响因素能力不足,进而影响预测效果。
机器学习虽具备处理多样性数据的能力, 在面对时间序列数据的不规则变动时仍存在局限[23]。监测过程中引入的噪声,进一步增加了数据处理的复杂性[24]。因此,模态分解技术成为了一种辅助工具,通过转化非平稳数据,减少数据噪声来增强预测模型的准确性,并已在风速、径流量、空气质量和电力负荷预测等领域得到应用[25-27]。在众多模态分解算法中,基于经验模态分解(EMD)、自适应噪声完备集合经验模态分解CEEMDAN和变分模态分解VMD被广泛应用。Lu等的研究显示,CEEMDAN结合随机森林(RF)和极限梯度提升(XGBOOST)能够提高单一水质参数的预测精度。但该研究未充分考虑水质多参数的交互影响,且CEEMDAN本身的随机性可能影响结果的稳定性[28]。
4.1 创新点
4.1.1 基于大尺度下探究人类活动和环境因素对水生DOM性质的影响
已有研究多聚焦于小流域下人类活动和环境因素对水生DOM的影响,以大尺度为背景的研究欠缺。然而,相比于小流域,大尺度下DOM性质可能受到更多复杂因素的影响,包括区域气候、地形地貌、土壤类型、植被覆盖等。这些因素在大尺度范围下的变化较大,与人类活动耦合作用下对DOM性质产生更为复杂和多样的影响。此前研究表明,在大尺度下,季节性的温差、水文变化与经纬度主导的气候、地理差异相比可能相对不重要,与在小流域中观察到的规律不同[29],甚至出现相反的情况。因此,从不同尺度探究人类活动和环境因素对水生DOM性质的影响所呈现的结果很可能是不一样的。我们基于大尺度进行研究更有助于揭示DOM在大范围区域乃至全球尺度上的分布规律和影响因素,为全球气候变化、水资源管理等提供科学支撑。
4.1.2 机器学习模型的引入与预测
现存大规模水生DOM检测调查成本较高且效率低下,可行性不高。而已有研究证实,ML方法是探究河流海洋连续体中DOM迁移转化的有效手段,也支持大尺度的快速模拟。因此我们引入ML方法预测并探究全球水生DOM的分布规律和影响因素。我们基于已有的中国内陆水生DOM数据进行RF、GBRT、SVM和线性模型(LM)建模,层层比较,初步筛选出了性能较优的ML,即CEEMDAN-RF。相比于较为简单的ML,CEEMDAN-RF能有效提升模型的可靠性(13%~68%)并降低误差(63%~92%),在各个DOM光学性质的预测上能呈现出更好的效果,更为可靠。
4.1.3 CEEMDAN算法从分解时间序列推广到基于经纬度的空间序列数据
与以往运用模态分解(CEEMDAN)算法从时间序列提取数据动态特征不同,我们将使用CEEMDAN算法分解基于经纬度的空间序列数据。对DOM数据降噪和去除极端影响。我们考虑到全球内陆水体的空间分布是固定的,而内陆水环境是复杂多样的,这使得环境指标在空间上的分布呈现一定的梯度特征,以经纬度量化的空间序列数据具备一定的研究意义,因此,创新性使用CEEMDAN分解空间序列是具有应用前景的。
4.2 项目特色
项目依托水灾害预防全国重点实验室和浅水湖泊综合治理与资源开发教育部重点实验室和国家重点研发计划“长江流域典型城市内湖水环境-水生态协同治理关键技术与示范”项目子课题,贯彻“多源收集数据→全面分析数据→创新构建模型→实际预测运用”的研究思路,通过机器学习和SEM建模,预测并量化环境因素和人类活动对水生DOM的影响。为研究复杂环境因素耦合人类活动的作用下全球碳循环的机制与规律提供新的视角。
5.1 技术路线
5.1.1 收集全球内陆水生DOM的数据
从已发表文章中收集全球内陆水体的DOM光学性质数据,主要包括溶解性有机碳(DOC)浓度、荧光指数(FI)、腐质化指数(HIX)、自生源指数(BIX)、芳香性指数(SUVA254)以及水体自身性质、周边的土地覆盖类型和降水,调查这些水体所在行政单位的人口、经济和城镇化率数据。
由于不同文献使用三维荧光测定的参照物、仪器和方法不同,PARAFAC方法对荧光组分分离的结果和单位存在较大的差异[30,31]。为避免统计差异性,采用统一的分类方法,类蛋白物质(Ex/Em=<280/280~350)、长波腐殖质(L-humic)(<400/>450)、短波和微生物源腐殖质(SM-humic)(<350/380-440)。
5.1.2 构建CEEMDAN-ML-SEM模型
① 基于CEEMDAN算法对DOM光谱数据降噪预处理
大尺度下不同区域的环境因素差异巨大,DOM光谱性质存在较大的空间异质性,收集到的DOM数据可能受到极端环境因素的影响而显著降低ML模型的性能。因此基于空间序列的降噪手段是必要的。具体步骤如下:(1)将收集到的光谱数据进行基于经纬度的空间排序;(2)选取合适的模态经验分解算法—自适应噪声完备集合经验模态分解CEEMDAN,对光谱数据进行空间序列上的CEEMDAN分解算法预处理。
② 基于ML对影响因素进行筛选与识别
CEEMDAN-ML-SEM的开发步骤如下:
(1) 收集已发表文章中内陆水体的DOM光学性质数据,获取的水生DOM荧光观测值。
(2) 将原始空间数据输入到所有ML模型中(所有的模型均采用R中的“if”循环进行50次重复以确保模型的稳定性),对比不同模型性能,筛选较好ML。我们采用决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)对模型的性能进行评价,公式如下:
(3)使用CEEMDAN算法对原始空间数据进行分解,生成有限的IMFs。将IMFs分别输入较好ML中,对比不同IMF下的ML性能,筛选最佳IMF。
(4) 将最佳IMF输入到较好ML中,对比CEEMDAN-ML和ML的性能,筛选最优ML。
(5) 选取最优ML,基于R中ML包对特征值进行重要性排序,以解析各个特征对模型预测的贡献,探究不同特征对因变量的影响。
(6) 选取在所有水生DOM预测中均排名前10的影响因素,将这些关键影响因素和水生DOM指标作为观测变量分配给相应的潜在变量,进行SEM建模。
图4:CEEMDAN-ML-SEM的开发步骤
③ 建立SEM模型
使用SEM探讨人类活动对中国内陆水生DOM的直接和间接影响。首先选取最优ML中识别的关键影响因素作为观测变量分配给5个潜在变量,5个潜在变量为农业活动、城镇人类活动、人口、地理因素和自然因素。同时,我们将水生DOM光谱指标作为观测变量分配给3个潜在变量,3个潜在变量为腐殖质源、生物源和DOC。最后,我们采用方差膨胀因子(VIF)来再次检验观测变量的多重共线性,再次筛选观测变量,直到SEM满足拟合优度指数>0.90,标准化均方根残差<0.08,近似均方根误差<0.06的评价标准。由于SEM对数据和路径建立的要求非常苛刻,为得到收敛且拟合效果较好的SEM模型,我们考虑分别将地理因素和自然因素耦合进入人类活动的SEM模型中,建立两个SEM模型。SEM模型使用R中的“lavaan”包实现。
SEM模型可用于量化人类活动和环境因素对水生DOM的影响,如图5所示。我们拟推广应用至全球内陆水生DOM的影响因素分析中。
图5:不同环境因素、人类活动与中国内陆水体DOM的相关性
注:通过SEM模拟研究了人类活动和环境因素对水体DOM性质的影响。红色和蓝色线分别表示正显著和负显著相关性,虚线表示不显著相关性。(a) 以及(b)分别通过地理因素和自然因素来说明耦合人类活动对水体DOM的影响。
5.2拟解决的问题
① 水生DOM的全球分布模式分析
通过收集空间序列的全球内陆水生DOM的光谱监测数据,获取环境因素数据(包括采样地理位置、采样季节、水体类型、降水量、土地利用类型、水体盐度和富营养化程度)以及水生DOM荧光观测值(包括DOC浓度、FI、HIX、BIX、SUVA254和PARAFAC结果),构建不同层面的全球尺度下内陆水体DOM分布图并总结规律。
② 人类活动和环境因素对水生DOM的影响
目前,复杂环境和人类活动对水生DOM的影响量化表征尚有欠缺,尤其是在大尺度下的耦合影响关系对比尚不清楚,构建CEEMDAN-ML-SEM模型,筛选影响水生DOM的影响因素,这有助于理解大尺度下人类活动和环境因素耦合作用下未来水生碳库的循环模式/动态。
5.3预期成果
① 建立CEEMDAN- ML模型
我们回顾已发表的关于中国内陆水生DOM性质调查的文章,收集722个中国内陆水体的光谱数据与水体自身性质、周边的土地覆盖类型和降水,调查这些水体所在行政单位的人口、经济和城镇化率数据。基于这些数据进行RF、GBRT、SVM和线性模型(LM)建模,筛选性能较优的ML。我们假设CEEMDAN算法分解基于经纬度的空间序列数据是可行的,并对光谱数据进行空间序列上的CEEMDAN分解算法预处理,将CEEMDAN前后的数据输入较优ML,对比二者性能,并筛选出最优ML。
② 针对不同尺度流域进行多样化的水生DOM预测
利用建立的CEEMDAN-ML模型,对全球范围内各尺度的流域或水体进行多样化的水生DOM预测,为水环境治理提供新的思路,助力实现水资源的可持续利用,强化内陆水体健康。
③ 发表学术论文:发表核心期刊及以上论文1-2篇。
本项目的研究时间从2024年5月到2025年6月。表1列出了项目的年度研究计划,表中最小时间单位为1个月。
主要研究内容 |
2024年5月-2024年12月 |
2025年1月-2025年6月 |
||||||||||
7 |
8 |
9 |
10 |
11 |
12 |
1 |
2 |
3 |
4 |
5 |
6 |
|
收集资料、完善项目研究方案 |
|
|
|
|
|
|
|
|
|
|
|
|
模型的选取与验证 |
|
|
|
|
|
|
|
|
|
|
|
|
数据结果处理和分析 |
|
|
|
|
|
|
|
|
|
|
|
|
项目整理、提交结题报告 |
|
|
|
|
|
|
|
|
|
|
|
|
撰写、发表论文 |
|
|
|
|
|
|
|
|
|
|
|
|
表1:项目研究进度计划
7.1 与本项目有关的研究积累和已取得的成绩
我们收集并利用模态经验分解处理了空间序列的中国内陆水生DOM的光谱监测数据,并进行了机器学习和SEM建模,预测并量化了环境因素和人类活动对水生DOM的影响。结果表明,经纬度对水生DOM的影响是多样的。同时,水生DOM的生物源特征强且有同质化趋势,这些分别表现于夏季(季节)、湖泊(流态)和富营养水体(营养水平)。CEEMDAN在处理空间序列的水生DOM光谱中有较好的性能,能有效提升ML的可靠性(13%~68%)并降低误差(63%~92%)。根据SEM,我们发现经纬度为代表的地理因素对水生DOM的强影响作用是通过降低水生DOM生物源特性实现的,同时水文连通性也是重要自然因素(但其作用与经纬度相反);季节和降水的影响似乎是微弱的。最后,我们强调了人类活动的影响,这些影响不受环境因素的变化而减弱,主要体现于人类生活污染和城镇生产活动对水生DOM生物源特征的强化。我们的结果有助于理解大尺度下人类活动和环境因素耦合作用下未来水生碳库的循环模式/动态。
7.2 已具备的条件,尚缺少的条件及解决方法
7.2.1已具备的条件
①实验室配置
项目依托水灾害预防全国重点实验室和浅水湖泊综合治理与资源开发教育部重点实验室,平台为学生提供包括三维荧光分光光度计(F-7000)、原子吸收分光光度计(TAS-990AFG)、全自动荧光定量PCR仪(Bio-Rad CFX96 Touch)、基质辅助激光解析飞行时间质谱仪(AB SCIEX MALDI-TOF/TOF 5800)等。申请者导师可为学生提供微波消解仪(Milestone Ethos A)、全自动固相萃取仪(SPE-DEX 4790)、加速溶剂萃取仪(ASE200)、叶绿素荧光(FP 100, Czech Republic)、生物显微镜(BM1000)、紫外可见分光光度计(UV-5100)、冷冻高速离心机(TGL-16M)、超声破壁仪器(LC-650N)、光照培养箱(GZD-550C)、氮吹仪、旋转蒸发仪、超声萃取仪、蓝藻微宇宙模拟试验装置等仪器和装置,为本项目的顺利开展提供了实验保证。
②项目指导老师
本项目组指导老师多年来主要从事蓝藻水华控制技术与机理、污染物迁移转化及人工湿地处理技术等方面的研究与应用工作,作为第一负责人承担和参与国家及省部级自然科学基金类项目10余项,其中国家自然科学基金项目2项,参与国家自然科学基金重点项目1项,参与国家重点研发项目1项。已发表第一作者学术期刊论文30余篇,在Chemical Engineering Journal(一区Top,IF= 15.1)、Separation and Purification Technology(一区Top,IF= 8.6)和Science of The Total Environment(一区Top,IF=9.8)Journal of Hazardous Materials(一区Top,IF=13.6)等,发表期刊60余篇,已授权国家发明专利20余项。现任"中国环境科学学会"会员、"湖泊科学"、"Chemosphere"等多个杂志审稿人。已指导大学生创新训练项目15年,曾获国家级和省级大创项目。
③项目成员情况
本项目组由河海大学环境学院三名本科生组成,小组成员团队合作精神良好,积极沟通讨论关于课题的想法观点,依托自身所学的专业知识对项目提出不同角度的思考与见解,有助于多学科融合创新,助推项目研究的完善。同时小组成员各具编程语言、制图软件、数学建模、数据处理等方面的基础,为后续研究的数据分析以及制备模型测试提供了良好的基础,为项目研究提供足够的技术支持。
7.2.2 尚缺少的条件及解决方法
为了探究大尺度下人类活动和环境因素对水生DOM性质的影响,我们需要收集全球尺度下ADOM数据,并基于实际情况对所选模型进行验证。
为了有效解决上述问题,搜索来自Web of Science中的文章,收集已发表文章的全球内陆水体的DOM光学性质数据(在2024年4月前发表),通过来自开源的在线光谱库OpenFluor,使用GetData Graph Digitizer对文章中的来自图片的观测值进行提取,并对数据进行CEEMDAN分解、LM回归预测,基于重要性排序进行SEM建模,对所选取的模型进行验证。
开支科目 | 预算经费(元) | 主要用途 | 阶段下达经费计划(元) | |
---|---|---|---|---|
前半阶段 | 后半阶段 | |||
预算经费总额 | 1500.00 | 无 | 1000.00 | 500.00 |
1. 业务费 | 1500.00 | 无 | 1000.00 | 500.00 |
(1)计算、分析、测试费 | 500.00 | 软件分析费 | 500.00 | 0.00 |
(2)能源动力费 | 0.00 | 无 | 0.00 | 0.00 |
(3)会议、差旅费 | 0.00 | 无 | 0.00 | 0.00 |
(4)文献检索费 | 0.00 | 无 | 0.00 | 0.00 |
(5)论文出版费 | 1000.00 | 论文出版 | 500.00 | 500.00 |
2. 仪器设备购置费 | 0.00 | 无 | 0.00 | 0.00 |
3. 实验装置试制费 | 0.00 | 无 | 0.00 | 0.00 |
4. 材料费 | 0.00 | 无 | 0.00 | 0.00 |