多变量时间序列包含两个或多个变量,研究这些数据集的目的是预测一个或多个变量,参见下面的示例。,
,上图是包含9个变量的多变量时间序列。这些是智能浮标捕捉到的海洋状况。,大多数预测模型都是基于自回归的。这相当于解决了一个监督学习回归任务。该序列的未来值是目标变量。输入的解释变量是每个变量最近的过去值。,自回归在一个主要假设下工作。最近的过去值包含了关于未来的足够信息。但这可能不一定是真的。我们可以尝试从最近的数据中提取更多的信息。例如,滚动汇总统计信息有助于描述最近的动态。,特征工程包括提取和生成解释变量,这是任何数据科学项目的关键。特征的质量是模型性能的一个核心方面,所以数据科学家在这个过程中花费了大量的时间。,特性工程通常是一个特别的过程:数据科学家基于他们的领域知识和专业知识创建特性,如果该过程的能够自动化化处理将会为我们节省很多的时间。让我们看看如何在多元时间序列中做到这一点。,我们将使用从智能浮标收集的多元时间序列作为本文的数据集 [1]。 这个浮标位于爱尔兰海岸。 它捕获了 9 个与海洋条件相关的变量。 其中包括海水温度、波浪高度和海水流速等。 上面的图 1 显示了 2022 年第一个月的情况。,以下是使用 pandas 读取这些数据的方法:,这个数据集研究的目标是预测SWH(显著波高)变量的未来值。这个变量常被用来量化海浪的高度。这个问题的一个用例是估计海浪发电的大小,因为这种能源是一种越来越受欢迎的替代不可再生能源。,时间序列是多元的,所以可以使用ARDL(Auto-regressive distributed lags)方法来解决这个任务。我们在之前也介绍过则个方法。下面是这个方法的实现:,首先将时间序列转化为一个自回归问题。这是通过函数time_delay_embedding完成的。预测的目标是预测未来12个SWH值(horiznotallow=12)。解释变量是序列中每个变量的过去的24个值(n_lag =24)。,我们这里直接使用LightGBM对每个预测层位进行训练。这种方法法是一种常用的多步超前预测方法。它在scikit-learn中也有实现,名为MultiOutputRegressor。,上面的代码构建和测试一个自回归模型。解释变量只包括每个变量最近的过去值。结果的平均绝对百分比误差为0.238。,我们把这个结果作为基类对比,让我们看看是否可以通过特性工程来提高。,本文本将介绍两种从多元时间序列中提取特征的方法:,我们可以总结每个变量最近的过去值。例如,计算滚动平均来总结最近的情况。或者滚动差量来了解最近的分散程度。,如果能需要添加更多的统计数据。可以向SUMMARY_STATS字典添加函数来实现这一点。将这些函数放在一个字典中可以保持代码整洁。,单变量统计漏掉了不同变量之间潜在的相互作用。所以我们可以使用二元特征提取过程捕获这些信息。,这个想法是为不同的变量对计算特征。可以使用二元统计总结了这些对的联合动态。,有两种方法可以做到这一点:,下面是用于性完成这两个过程的代码:,字典bivariate_transforms或BIVARIATE_STATS中添加其他的函数,可以添加额外的转换或统计信息。,在提取所有特征之后,我们将将它们连接到原始解释变量。训练和测试的过程和之前的是一样的,只不过我们增加了一些人工生成的变量。,得到了0.227的平均绝对百分比误差,这是一个小小的提高,因为我们的基线是0.238。,以上提取过程共得到了558个解释变量。根据变量和汇总统计信息的数量,这可能会产生高维问题。因此,从数据集中删除糟糕或冗余的特征是很重要的。,我们将找到一些重要特征并重新训练,可以看到前100个特性与完整的558个特性的性能相似。以下是前15个特征的重要性(为了简洁起见省略了其他特征):,
,可以看到最重要的特征是目标变量的第一个滞后值。一些提取的特征也出现在前15名中。例如第三个特征SWH|Hmax_js_div。这表示目标变量的滞后与Hmax的滞后之间的Jensen-Shannon散度。第五个特性是SeaTemp_sdev,表示海洋温度的标准偏差滞后。,另一种去除冗余特征的方法是应用相关性过滤器。删除高度相关的特征以减少数据的维数,这里我们就不进行演示了。,本文侧重于多变量时间序列的预测问题。特征提取过程应用于时间序列的多个子序列,在每个时间步骤中,都要用一组统计数据总结过去24小时的数据。,我们也可以用这些统计来一次性描述整个时间序列。如果我们目标是将一组时间序列聚类,那么这可能是很有用。用特征提取总结每个时间序列。然后对得到的特征应用聚类算法。,用几句话总结本文的关键点:
© 版权声明
文章版权归作者所有,未经允许请勿转载。