详情

基于人工智能的海气界面浮标缺失数据补全方法

申报人:杨乾 申报日期:2024-04-07

基本情况

2024
基于人工智能的海气界面浮标缺失数据补全方法 学生选题
创新训练项目
理学
海洋科学类
教师科研项目选题
一年期
海气界面浮标观测用于长时间、连续地监测海洋和大气之间的各种参数,是研究海气相互作用的核心手段之一,对于理解海洋和大气之间的物质、能量交换过程具有重要意义。然而,由于受技术故障、环境因素、通讯问题、人为因素等意外状况影响,常常会导致海气界面浮标的数据缺失,会影响对海气相互作用过程的理解和预测。因此,开发缺失数据补全的方法对于提高海洋和气象预测的精度至关重要。 本项目旨在利用先进的人工智能技术解决海气界面浮标数据中的缺失值问题。拟应用平均值补全、支持向量机(SVM)、RNN、Traformer等计算方法开发智能模型,能够自动识别、分析和填补海气界面浮标数据中的缺失部分,以提高数据的完整性和可用性。通过该项目,利用机器学习和深度学习技术,可以从现有的数据中学习海气界面的复杂关系,补全缺失数据,为海气界面浮标数据处理提供一种新的智能化解决方案,为相关领域的研究和应用提供更加可靠和完整的数据支持。除了海洋和大气科学外,基于人工智能的数据补全方法还可以应用于其他领域,如环境监测、交通运输、农业等,具有广泛的应用前景。
闫运伟主持科研项目6项,其中国家自然科学基金3项;李熠主持科研项目2项,其中国家自然科学基金1项,另参与自然科学基金重点项目1项。
拟支持相关费用1500元。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
杨乾 海洋学院 海洋科学 2022 组长
袁英杰 海洋学院 海洋科学 2022 组员
邹建航 海洋学院 海洋科学 2022 组员
朱俊熙 海洋学院 海洋科学 2022 组员

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
闫运伟 海洋学院
李熠 海洋学院

立项依据

海气界面浮标观测用于长时间、连续地监测海洋和大气之间的各种参数,是研究海气相互作用的核心手段之一。然而,由于受技术故障、环境因素、通讯问题、人为因素等意外状况影响,常常会导致海气界面浮标的数据缺失因此,开发缺失数据补全的方法对于提高海洋和气象预测的精度至关重要。本项目旨在利用先进的人工智能技术解决海气界面浮标数据中的缺失值问题。拟应用平均值补全、支持向量机(SVM)RNNTransformer等计算方法开发智能模型,能够自动识别、分析和填补海气界面浮标数据中的缺失部分,以提高数据的完整性和可用性。

通过本项目,可

(a)提高数据完整性: 海气界面浮标数据在海洋气象、海洋科学等领域具有重要作用,数据完整性对于准确预测海洋气象变化、理解海洋环境变化等至关重要。通过补全缺失数据,提高数据完整性,使得数据集更加完整和可靠。

(b)提高数据利用率: 缺失数据会降低数据的利用率和价值。通过补全缺失数据,可以提高数据的利用率,充分发挥海气界面浮标数据在海洋科学研究和应用中的作用。

(c)提高海洋监测效果: 海洋气象监测和预警需要实时、准确的数据支持。补全缺失数据可以提高海洋监测系统的效果,及时发现海洋气象变化和异常情况。

总的来说,研究海气界面浮标缺失数据补全方法的目的是为了提高海洋数据的完整性、利用率和质量,以支持海洋科学研究、气象预测和海洋监测等应用。

(a)海气界面浮标数据预处理:对海气界面浮标数据进行预处理,包括数据清洗、异常值检测和特征选择,以准备数据用于后续的缺失数据补全。

(b)缺失值补全模型构建及比较:使用平均值补全、支持向量机(SVM)RNNTransformer等计算方法对海气界面浮标数据进行训练,开发智能模型,并对人工智能模型进行优化和改进,包括调整模型参数、改进算法和增加数据样本等。对开发的不同智能模型进行比较,评估异同。

(c)开展数据补全及评估:利用训练好的人工智能模型,对海气界面浮标数据中的缺失值进行填补,以恢复数据集的完整性和连续性。对填补后的数据进行评估,包括与真实数据的比较、填补数据的稳健性和可靠性等指标,以评估人工智能模型的性能和填补效果。

目前,基于人工智能的海气界面浮标缺失数据补全方法的研究在国内外都处于不断发展的阶段。这项研究的主要目标是通过利用人工智能技术,对海洋和大气环境数据进行分析和预测,从而填补浮标缺失数据,提高数据的完整性和准确性。

海洋观测是各种海洋活动的前提,我国也在积极拓展全球海洋观测能力发展了温盐深剖面仪和声学多普勒流速剖面仪等数十种传感器、观测装备和各种固定、移动、空投、拖曳等观测平台,重点研发计划和一批专项在我国近海、南海、西太平洋、东印度洋、南北极等关键海区和通道建设了岸站、常规断面、水体及海底的区域观测网.然而,我国在南海和西太平洋等核心海区初步构建的海洋观测网主要以潜标阵列为主对研究大尺度环流具有一定的帮助。国内研究者通过建立基于机器学习和深度学习模型的数据补全算法,对海气界面浮标数据进行预测和插值,取得了一定的研究成果。同时,也有部分研究关注海气界面浮标数据质量控制和评估方法的研究,以提高数据质量和可靠性。总体来讲当前我国的海洋观测网虽有一定规模,但存在着区域碎片化、信息单一化、时空分辨低质化、数据传输延滞化等制约尚未形成对全球及核心海区海洋环境信息的实时、立体、高分辨率、多要素的整体同步获取等能力。 

而在国外的相关技术研究与数据应用服务领域,学者们致力于提升海气界面浮标的观测精度、数据传输效率和耐久性,涉及传感器技术、通信技术、能源管理等方面的创新。随着卫星遥感、大型潜/浮标、海洋次表层剖面浮标、无人移动潜器等海洋技术和装备的发展发达国家尤其是美国和欧盟已经基本形成了对全球上层海洋大尺度(百千米级)信息实时获取能力。当前许多国际组织和国家都在开展海气界面浮标项目,如世界气象组织(WMO)的全球海洋观测系统(GOOS)、美国国家海洋和大气管理局(NOAA)的浮标网络等。加强国际合作与数据共享,促进海气界面浮标观测数据的全球整合与共享,将有助于更好地理解全球气候变化和海洋环境演变。

(a)实时性:项目可能具有实时数据处理能力,能够及时响应海气界面浮标缺失数据的情况,实现对数据的快速补全,提高数据处理效率和实用性。

(b)可扩展性:该项目可能具有较强的可扩展性,能够适应不同海区、不同浮标观测系统的数据补全需求,为海洋环境监测和气象预报提供更广泛的支持。

(c)应用价值:该项目的数据补全方法可能具有较高的应用价值,可以为海洋科学研究、气象灾害预警、海洋环境保护等领域提供重要的数据支持,有助于提高相关领域的研究水平和决策水平。

技术路线:

首先进行数据采集与预处理,收集海气界面浮标的原始数据并对其进行分析处理,如清洗、去噪、异常值检测等步骤,运用SVM算法处理样本数据。并应用平均值补全法进行缺失数据补全,其基本思想是使用已知数据的平均值来替换缺失的数值,以维持数据集的整体分布特征。运用Transformer等学习模型进行模型训练,建立缺失数据补全模型和图像处理,并通过训练使用已有的数据来优化模型参数。最后利用训练好的模型对缺失数据进行插值和预测,填补浮标缺失的数据。

应用到的具体方法如下:

一、平均值补全法:

在平均值补全中,缺失的数值特征将被替换为该特征的平均值。这是一种简单而直观的方法,适用于数据集中缺失值的情况较少且缺失值是随机的情况。其优点是:实现简单,易于理解和实施且不需要额外的模型训练。

具体步骤为:

(a)计算平均值:首先,计算数据集中已知数值的平均值。可以是整个数据集的平均值,也可以是特定列或特征的平均值。

(b)替换缺失值:将缺失值用计算得到的平均值进行替换。这样做可以保持数据的总体分布特征,并避免对数据造成较大影响。

(c)验证处理效果:补全数据后,需要验证数据的准确性和完整性。可以通过统计分析或可视化方法来评估处理效果。

二、支持向量机(SVM)方法:

支持向量机是一种强大的监督学习算法,适用于分类和回归任务。在处理缺失值时,SVM通常需要在数据预处理阶段进行特征缩放和数据归一化,以确保模型的性能。对于含有缺失值的数据,可以使用SVM进行预测,并将预测结果作为缺失值的替代。SVM 在处理小样本、高维空间和线性/非线性分类等问题上表现良好,但对于大规模数据集可能效率较低。

具体步骤为:

(a)数据预处理:特征缩放、数据归一化等。

(b)使用支持向量机进行训练。

(c)对于含有缺失值的数据,使用已训练的模型进行预测。

三、神经网络方法 - 递归神经网络(RNN):

递归神经网络是一种特殊类型的神经网络,能够处理序列数据。对于时间序列数据中的缺失值,RNN具有较好的处理能力。通过在序列中的时间步上建模缺失值,RNN可以有效地处理这些情况。其优点为:能够捕捉序列数据中的时间依赖性且能够处理变长序列数据。

具体步骤为:

(a)构建递归神经网络模型。

(b)将数据输入模型进行训练。

(c)在训练过程中,模型将学习如何处理序列数据中的缺失值,并进行相应的预测。

拟解决的问题:

(a)浮标缺失数据的补全:主要解决海气界面浮标因各种原因导致的数据缺失问题,通过人工智能技术填补缺失数据,提高数据的完整性和可用性。

(b)数据质量控制:解决数据质量不佳或受到干扰影响的问题,通过算法处理和模型优化提高数据的质量和可靠性。

(c)实时性要求:针对海洋和气象环境的实时变化,提供及时有效的数据补全方案,确保数据处理的实时性和准确性。

预期成果:

(a)高效的数据补全方法:开发出能够快速、准确地补全海气界面浮标缺失数据的人工智能算法和模型。

(b)提高数据完整性和准确性:填补缺失数据后,使得海洋和大气环境数据更加完整和准确,为相关研究和应用提供更可靠的数据支持。

(c)实用性和通用性:开发出的方法具有一定的通用性和适用性,能够适用于不同类型和不同地区的海气界面浮标数据补全需求,具有广泛的应用前景。

(d)科研和应用价值:提高海洋科学研究、气象预报和海洋环境监测等领域的数据处理水平和决策支持能力,为应对气候变化、灾害预警等提供科学依据和技术支持。

第一阶段(前四个月):海气界面浮标数据预处理

对海气界面浮标数据进行预处理,包括数据清洗、异常值检测和特征选择,以准备数据用于后续的缺失数据补全。

第二阶段(第五至八个月):缺失值补全模型构建及比较

使用平均值补全、支持向量机(SVM)RNNTransformer等计算方法对海气界面浮标数据进行训练,开发智能模型,并对人工智能模型进行优化和改进,包括调整模型参数、改进算法和增加数据样本等。对开发的不同智能模型进行比较,评估异同。

第三阶段(第九至十二个月):开展数据补全及评估

利用训练好的人工智能模型,对海气界面浮标数据中的缺失值进行填补,以恢复数据集的完整性和连续性。对填补后的数据进行评估,包括与真实数据的比较、填补数据的稳健性和可靠性等指标,以评估人工智能模型的性能和填补效果。

指导老师闫运伟长期应用海气界面浮标开展工作,相关成果在Journal of Physical Oceanography、Journal of Geophysical Research: Oceans、Geophysical Research Letters、Deep Sea Research Part I等期刊上发表,共13篇SCI论文,其中第一作者论文9篇。基于全球热带锚系浮标数据,(a)厘清了海气界面多种日变化过程的规律(Yan et al., 2014; 2017; 2018; 2021a; 2023a),特别是热带海表潜热通量的日变化特征;(b)揭示了海气界面多种日变化过程的跨尺度效应(Yan et al., 2021b; 2022; 2023b; 2024),包括海表温度场和风场日变化对平均海气热通量和动量通量的影响。
指导老师李熠主研台风预测,数据同化,海气耦合模式,相关科研项目有 (a)国家自然科学基金:强耦合同化框架下的南海台风预报研究,2021.01-2023.12;(b)中央高校基本科研业务费项目-自由探索专项(B210202141):强耦合同化中的协方差优化及在南海台风预报中的应用研究,2021.01-2022.12。 

已具备的条件:项目团队成员在过去的两年里系统地学习了相关专业知识,对海洋有着清晰深入的理解。同时,通过Python和Fortran语言的研习,团队掌握了基本的代码编写和程序设计能力。而且,学院内众多具有深厚专业知识背景的教师可随时为我们的海气界面浮标领域研究提供专业的理论指导和支持。
尚缺少的条件:目前,项目团队在人工智能的知识储备相对有限,这使得我们在开发初期可能会面临一定的挑战;同时,现有的硬件设备性能不足以满足快速高效的三维建模需求,建模过程所需的时间较长。
解决方法:针对人工智能编程难题,团队计划利用课余时间,通过网络自学、参考专业书籍等方式,积极补充编程及前端开发的相关技能;对于硬件设备的问题,我们将寻求采购或租赁高性能计算设备的途径,以提升建模效率,确保项目按期高效完成。  

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 1500.00 750.00 750.00
1. 业务费 1500.00 750.00 750.00
(1)计算、分析、测试费 0.00 0.00 0.00
(2)能源动力费 0.00 0.00 0.00
(3)会议、差旅费 1500.00 750.00 750.00
(4)文献检索费 0.00 0.00 0.00
(5)论文出版费 0.00 0.00 0.00
2. 仪器设备购置费 0.00 0.00 0.00
3. 实验装置试制费 0.00 0.00 0.00
4. 材料费 0.00 0.00 0.00
结束