您当前的位置:首页 > 电脑百科 > 程序开发 > 编程百科

使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

时间:2020-09-17 10:35:04  来源:  作者:
使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

 

在时间序列预测中,脏乱数据的存在会影响最终的预测结果。这是肯定的,尤其是在这个领域,因为时间依赖性在处理时间序列时起着至关重要的作用。

噪音或异常值必须按照特别的解决方案小心处理。在这种情况下,tsmoothie包可以帮助我们节省大量时间来准备用于分析的时间序列。Tsmoothie是一个用于时间序列平滑和离群值检测的Python库,它可以以向量化的方式处理多个序列。它很有用,因为它可以提供我们需要的预处理步骤,如去噪或离群值去除,保留原始数据中的时间模式。

在这篇文章中,我们使用这些小工具来改进预测任务。更准确地说,我们试图预测太阳能电池板的日发电量。最后,我们期望能从去噪过程中获益,并产生比未进行预处理的情况更好的预测。

数据

Kaggle上有一个真实的数据集。这些数据存储了安装在私人住宅屋顶上的太阳能电池板每天的发电量。数据记录自2011年,以时间序列的形式呈现3个不同的来源:

· 房子每天的煤气消耗量。

· 房屋的日常耗电量。当值为负值时,表示太阳能超过当地的电力消耗。

· 功率表在直流到交流转换器上的日值。这是当前累积的太阳能。我们不需要累积值,相反,我们需要绝对的日值,因此,我们做了一个简单的区分。这是我们要预测的目标。

使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

 

正如我们可以从原始系列的情节中注意到的,有很多噪音存在。这是正常的数据登记的传感器。如果我们的数据源受到外部气象条件的影响,或者传感器质量不佳,位置不理想,情况会更糟。

幸运的是,我们有知识和工具来实现我们的预测任务的良好结果。

时间序列平滑

我们工作流程中的第一步是时间序列预处理。我们的战略非常直观和有效。我们取目标时间序列(发电量),并用一种奇妙的工具使其平滑:卡尔曼滤波器,这是每个数据科学家都必须知道的。

一般来说,在时间序列任务中,使用卡尔曼滤波的最大优点是可以使用状态空间形式来表示未观察到的组件模型。以状态空间形式表示时间序列模型的范围是可用性的一套通用算法(包括卡尔曼滤波),用于计算高斯似然,可以在数值上最大化,得到模型参数的最大似然估计。著名的软件使用这种表示来匹配像ARIMA这样的模型并非偶然。在我们的特殊情况下,我们使用卡尔曼滤波器和状态空间表示来构建一个未观察组件模型。

到目前为止所解释的一切听起来可能很棘手,但我想向您保证……Tsmoothie可以轻松地构建未观察到的组件模型,以非常简单和有效的方式操作定制的Kalman平滑。在这个阶段,我们可以释放我们的想象力,从水平、趋势、季节性、长季节性中发现哪些成分有助于创建我们正在观察的时间序列。365天的水平和漫长的季节对我们来说很好。我们只需为每个组件假设添加一个"置信度",就完成了。

使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

 

卡尔曼平滑的可视化展示

结果平滑的时间序列保持相同的时间模式存在于原始数据,但具有一致和合理的降噪。

专业提示:如果我们的系列中包含nan,这不是一个问题,卡尔曼平滑会工作得非常好,它是一个非常强大的工具,以填补我们的数据空白……这是卡尔曼平滑的美丽。

时间序列预测

第二步是建立一个神经网络结构来预测未来几天的发电量。首先对原始数据拟合模型,然后对平滑后的序列进行拟合。平滑数据仅作为目标变量使用,所有输入序列保持原始格式。使用平滑标签的目的是为了帮助模型更好地捕捉真实模式和去除噪声。

我们选择一个LSTM自动编码器来预测接下来的5个日发电量值。训练程序使用keras-hypetune进行。该框架以非常直观的方式提供了神经网络结构的超参数优化。我们对一些参数组合进行网格搜索。

使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

 

我们可以想象,预测误差与时间范围有关。对第二天的预测比对未来五天的预测更准确。重要的一点是,平滑过程提供了很大的好处,在预测精度的所有时间跨度。

使用卡尔曼滤波平滑时间序列,提高时序预测的准确率

 

总结

在这篇文章中,我们利用了预测场景中的时间序列平滑。应用卡尔曼滤波平滑使得原始数据和减少噪声的存在。这种选择在预测精度方面被证明是有利的。我还想指出卡尔曼滤波在这个应用程序中的威力,以及它在构建未观察组件模型时是一个很好的工具的能力。

本文代码:github/cerlymarco/MEDIUM_NoteBook

作者:Marco Cerliani

deephub翻译组



Tags:时间序列   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
背景这两年互联网行业掀着一股新风,总是听着各种高大上的新名词。大数据、人工智能、物联网、机器学习、商业智能、智能预警啊等等。以前的系统,做数据可视化,信息管理,流程控制...【详细内容】
2020-11-25  Tags: 时间序列  点击:(603)  评论:(0)  加入收藏
时间序列数据在许多不同的行业中都非常重要。它在研究、金融行业、制药、社交媒体、网络服务等领域尤为重要。对时间序列数据的分析也变得越来越重要。在分析中有什么比一...【详细内容】
2020-11-20  Tags: 时间序列  点击:(68)  评论:(0)  加入收藏
在时间序列预测中,脏乱数据的存在会影响最终的预测结果。这是肯定的,尤其是在这个领域,因为时间依赖性在处理时间序列时起着至关重要的作用。噪音或异常值必须按照特别的解决...【详细内容】
2020-09-17  Tags: 时间序列  点击:(131)  评论:(0)  加入收藏
维基百科对于特征工程的定义是:利用相关领域知识,通过数据挖掘技术从原始数据中提取特征的过程。这些特征可以用来提高机器学习算法的性能。不过,特征工程不一定非得很花哨。...【详细内容】
2020-09-07  Tags: 时间序列  点击:(120)  评论:(0)  加入收藏
[Submitted on 19 Jun 2020 (v1), last revised 22 Jun 2020 (this version, v2)] 回复 ts13 获取论文及项目源码摘要在过去十年中,时间序列研究引起了很多兴趣,尤其是在时间...【详细内容】
2020-08-13  Tags: 时间序列  点击:(73)  评论:(0)  加入收藏
一. 时间序列基础知识社会经济现象总是随着时间的推移而变迁,呈现动态性。一个或一组变量x(t)进行观测,将在一系列时刻t1、t2、...、tn得到离散数字组成的序列集合,称之为时间...【详细内容】
2020-07-14  Tags: 时间序列  点击:(255)  评论:(0)  加入收藏
朋友多次劝我,用大数据人工智能研究下金融股票,由于本人水平有限,一直没有去想。最近两天,突然想到LSTM是不是很适合做股票预测。通过上网学习,还是真有案例。适合多输入变量的神...【详细内容】
2020-06-21  Tags: 时间序列  点击:(316)  评论:(0)  加入收藏
一起学习,一起成长!DataFrame数据结构对查询方式是数据处理与分析中经常使用对。比如,我们通常使用对excel数据文件,通常都是这种数据结构。所以,该数据结构对数据查询或称数据...【详细内容】
2019-12-02  Tags: 时间序列  点击:(154)  评论:(0)  加入收藏
▌简易百科推荐
摘 要 (OF作品展示)OF之前介绍了用python实现数据可视化、数据分析及一些小项目,但基本都是后端的知识。想要做一个好看的可视化大屏,我们还要学一些前端的知识(vue),网上有很多比...【详细内容】
2021-12-27  项目与数据管理    Tags:Vue   点击:(1)  评论:(0)  加入收藏
程序是如何被执行的  程序是如何被执行的?许多开发者可能也没法回答这个问题,大多数人更注重的是如何编写程序,却不会太注意编写好的程序是如何被运行,这并不是一个好...【详细内容】
2021-12-23  IT学习日记    Tags:程序   点击:(9)  评论:(0)  加入收藏
阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案 单系统登录解决方案的核心是cookie,cookie携带会话id在浏览器...【详细内容】
2021-12-23  程序yuan    Tags:单点登录(   点击:(8)  评论:(0)  加入收藏
下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse,那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用(总共分为六步)1...【详细内容】
2021-12-22  阿福ChrisYuan    Tags:RCP应用   点击:(7)  评论:(0)  加入收藏
今天想简单聊一聊 Token 的 Value Capture,就是币的价值问题。首先说明啊,这个话题包含的内容非常之光,Token 的经济学设计也可以包含诸多问题,所以几乎不可能把这个问题说的清...【详细内容】
2021-12-21  唐少华TSH    Tags:Token   点击:(9)  评论:(0)  加入收藏
实现效果:假如有10条数据,分组展示,默认在当前页面展示4个,点击换一批,从第5个开始继续展示,到最后一组,再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】
2021-12-17  Mason程    Tags:VUE   点击:(14)  评论:(0)  加入收藏
什么是性能调优?(what) 为什么需要性能调优?(why) 什么时候需要性能调优?(when) 什么地方需要性能调优?(where) 什么时候来进行性能调优?(who) 怎么样进行性能调优?(How) 硬件配...【详细内容】
2021-12-16  软件测试小p    Tags:性能调优   点击:(19)  评论:(0)  加入收藏
Tasker 是一款适用于 Android 设备的高级自动化应用,它可以通过脚本让重复性的操作自动运行,提高效率。 不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖,自...【详细内容】
2021-12-15  ITBang    Tags:抖音防烧屏   点击:(23)  评论:(0)  加入收藏
11 月 23 日,Rust Moderation Team(审核团队)在 GitHub 上发布了辞职公告,即刻生效。根据公告,审核团队集体辞职是为了抗议 Rust 核心团队(Core team)在执行社区行为准则和标准上...【详细内容】
2021-12-15  InfoQ    Tags:Rust   点击:(24)  评论:(0)  加入收藏
一个项目的大部分API,测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API,复制用例来快速生成,然后做细微调整既可以满足我们的测试需求1.复制API:在菜单发布单...【详细内容】
2021-12-14  AutoMeter    Tags:AutoMeter   点击:(20)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条