基于机器学习的数据缺失值填补:理论与方法
上QQ阅读APP看书,第一时间看更新

1.3 缺失值填补的应用

缺失值填补的应用范围基本覆盖了基于数据的科学研究与工业应用领域。下面就医疗、交通、金融、环境与工业5个领域展开探讨。

1.医疗

随着医疗信息化的深入,基于数据驱动的智能诊疗系统得以开发和应用。智能诊疗系统能够基于医学数据实现自动化诊断、治疗方案制定、治疗效果跟踪等功能,从而为医生提供可靠的决策支持。医学数据主要来源于医学影像、电子病历、电子健康档案等。然而,由于数据保存不当、医疗信息难以跨平台共享等因素,医学数据中往往存在较多缺失数据。而此类缺失数据将直接影响智能诊疗系统的性能,甚至会导致误诊和临床试验的推论错误。因此,缺失值填补在医疗中的应用较为广泛。

在验证填补方法对医学数据有效性的研究过程中,Janssen等人利用804例疑似患有深部静脉血栓形成(Deep Venous Thrombosis,DVT)患者的资料展开实验论证[30]。该实验涉及两种缺失数据删除方法,即删除不完整样本以构成样本量缩减的完整数据集,以及删除不完整属性以构成属性个数缩减的完整数据集。研究人员在对比上述删除法和多重填补法后发现,简单的删除方法会导致预测的错误,而多重填补法能够获得较为理想的预测结果,因此建议在医学研究中采用多重填补等填补方法进行缺失值处理。

在填补方法性能的研究过程中,Jerez等人关注到乳腺癌患者的术后康复问题,并以此展开实验[31]。乳腺癌患者的术后治疗方案取决于对患者疾病情况的准确预测。不合理的治疗方案将导致患者出现副作用甚至病情恶化。尽管目前诸多预测模型可辅助医生进行合理推断,但临床医疗数据集中的缺失数据易导致模型预测结果不可靠。为了分析不同缺失值填补方法对乳腺癌患者术后复发情况的预测精度,研究人员对比了均值填补、热平台填补、多重填补、K近邻填补、多层感知机填补、自组织映射填补这6种方法,并通过实验验证了在乳腺癌复发预测方面,基于机器学习的填补方法(后三种)明显优于基于统计学的填补方法(前三种)。

除上述场景外,缺失值填补方法在冠心病及肺癌等疾病的诊断、重症患者的死亡率风险预测等方面均有应用。在这些应用中,缺失值填补方法能够有效提升医学数据的质量,并由此提高智能诊疗系统的准确度。

2.交通

城镇化进程的加快、交通信息化的发展促使交通数据迅猛积累,基于大规模的交通数据设计智能交通系统,以此构建经济、便捷、高效的综合交通体系是当代城市交通的重要发展方向。但是,交通检测节点广泛分布于现实环境中,并且其受环境状态、节点故障等影响,经常面临数据缺失问题。在保障智能交通系统的准确性与可靠性方面,缺失值填补方法有重要的应用价值。

针对交通流量数据缺失值问题,研究者常采用自回归综合移动平均模型(Auto-Regressive Integrated Moving Average,ARIMA)、前馈神经网络(Feed Forward Neural Network,FFNN)等填补缺失值。Shang等人结合粒子群算法、支持向量回归及FCM设计缺失值填补方法,随后将其应用于上海市南北高架路、厦门市莲前西路的交通数据中,并且获得了理想的填补精度[32]。Duan等人设计名为去噪堆叠式自编码器的深度学习模型,并将其成功应用于美国加州交通局性能测量系统(Caltrans Performance Measurement System,PeMS)所公布的交通数据中[33]

交通流的实时预测是智能交通系统的重要功能之一。根据预测的交通流信息提前感知拥堵路段并分析拥堵趋势,是实行智能交通调控的基础。然而,交通数据中的缺失值不仅增加了预测模型的设计难度,还降低了交通流的预测精度。针对此问题,众多研究者展开了一系列的理论分析与应用研究。例如,Tian等人基于长短时记忆(Long Short-Term Memory,LSTM)神经网络、循环神经网络(Recurrent Neural Network,RNN)设计了具备缺失值处理能力的交通流预测模型。该模型采用多尺度时间平滑(Multiscale Temporal Smoothing,MTS)进行缺失值处理,即模型借助RNN单元从历史输入值中隐式地获取缺失数据的估计值,从而在模型训练期间合理填补缺失值。上述交通流预测模型被应用于PeMS公布的交通数据中,并获得了理想的预测效果[34]

交通信号灯控制系统是智能交通领域的热门研究方向。此类系统利用基于交通数据建立的模型智能调控交通信号灯,从而对道路上的行人和车辆进行指挥与疏导。然而,交通数据中的缺失值会影响决策的合理性,进而扰乱交通秩序,甚至危害城市的交通安全。因此,面向实时交通数据的高效缺失值填补方法受到越来越多的关注。

3.金融

股票交易是一项高收益、高风险的投资活动,一直以来都是民众的重要投资方式。为了给投资者提供高回报且低风险的决策建议,大量科研及从业人员通过分析股票数据,对股市的运行机制及股票的价格走势展开分析。但是由于数据保存不当等原因,股票数据往往面临缺失值问题。为了提高分析结果的准确性,缺失值填补成为分析股票数据时经常采用的数据预处理方法。例如,Sohae考虑到全球股票市场的相似性,利用世界各国不同的股票数据进行信息共享,并以此设计针对股票数据的多重填补方法[35]。随着对基于机器学习的填补方法的研究逐渐深入,越来越多的学者致力于将此类填补方法应用于股票等金融数据的缺失值处理任务。

除了股票预测的场景外,缺失值填补方法还在风险控制、金融产品营销、智能理财等方面具有一定应用价值。随着大数据与人工智能的发展,基于数据的智能系统为金融领域的技术革新提供了巨大的助力。在风险控制中,利用包含客户身份、工作、住址、信用等在内的海量数据展开建模,能够自动化识别欺诈行为,从而更好地实现风险的可控操作。此外,在金融产品的营销中,基于用户行为数据分析的产品精准推荐,不仅能够凭借个性化的服务保障用户体验,还能够深度挖掘用户喜好并大幅度提升销售表现。然而,客户数据中往往存在一定缺失值,例如因数据异常被分析人员删除所导致的数据缺失,因客户未填报或存储不当而导致的数据缺失等。在此情况下,直接删除不完整样本通常不具备可行性,原因在于删除包含缺失值的客户样本后,所建模型无法对被删除的客户展开判别和分析。因此,缺失值填补在此类场景中的应用较广泛。

4.环境

基于环境数据的分析能够对现实环境进行监控和预测,进而指导人类的日常生产活动。环境数据的采集设备一般分布于室外的特定场景,由于设备失灵、环境恶劣等,降水量、气温、风速、湿度等环境数据中经常存在数据缺失。为了提高分析和预测模型的精度,研究人员在建模之前通常需要对缺失值进行有效的估计。

针对降水量数据中的缺失值问题,Nkuna等人利用南非卢乌乌胡河流域的真实降水量数据集进行实验分析。研究人员采用径向基函数神经网络(Radial Basis Function Neural Network,RBFNN)设计缺失值填补方法,由此生成可靠的降水量数据。实验表明,基于RBFNN填补后的降水量数据集能够进一步用于水文模拟及水资源规划与管理[36]。此外,Coulibaly等人基于加拿大加蒂诺流域的气候数据展开缺失值填补的研究。研究人员设计多层感知机填补、循环神经网络填补、时滞前馈神经网络填补等多种缺失值填补方法,随后对气候数据集中的日降水量与日极端温度缺失数据进行填补,并获得了理想的填补精度[37]

由于空气污染日益严峻,PM2.5等污染因子的检测与分析备受关注。基于污染数据建立准确的数学模型,对于生态环境的保护有着重要意义。然而,缺失值的存在影响了污染数据的有效分析,故缺失值填补方法在监测与治理环境污染方面有一定的研究价值。例如,在分析唐山市大气污染数据时,研究人员采用多元线性逐步回归法建立基于回归模型的填补方法,由此对大气中PM2.5的多环芳烃浓度数据进行缺失值填补[38]

基于真实环境采集到的数据,往往受采集设备、环境影响而出现缺失的情况。在此类数据的建模与分析中,需合理考虑缺失值的有效处理,因此缺失值填补方法具有较大的应用价值。

5.工业

工业过程通常涉及复杂庞大的系统,此类系统易受工作环境中电、磁等噪声的干扰而处于异常状态,由此导致采集到的数据丢失或失真。并且,由于各类数据的更新速度可能不同,采集信号的频率往往存在差异。在采集时间不同步的情况下,若存储设备出现故障,则会导致样本中的部分数据丢失。采集数据对于系统的显示与控制、系统状态预测等有重要作用,因此,缺失值填补在工业中具有一定的应用价值。例如,研究人员以青霉素生物发酵为背景,基于发酵过程中的菌体浓度、基质浓度、产物浓度等进行生物发酵的软测量建模,通过将多重填补方法应用于建模过程,获得了理想的建模效果[39]

高危机械设备的精确故障诊断对于人员安全、环境保护有着极大的影响。例如,核动力设备等大型复杂的机械设备在发生地震、海啸等突发事件时,检测系统所检测的信号通常因突发事件的破坏而产生数据缺失。基于不完整数据的故障诊断会降低检测结果的准确性与可靠性,甚至会导致一系列灾难。如何有效地处理缺失数据,并以此提高诊断结果的精度,是故障诊断领域的重要研究任务。在此背景下,研究人员针对旋转机械故障诊断中面临的缺失值问题,设计基于改进隐马尔可夫模型(Hidden Markov Model,HMM)的诊断方法。该方法采用缺失值填补思路,对HMM识别过程中的Viterbi算法进行改进,从而使HMM诊断方法具备缺失值处理能力。缺失值填补与故障诊断方法的结合为高危机械设备故障的精确诊断提供了良好的助力[40]