当前位置: X-MOL 学术Data Min. Knowl. Discov. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
TEASER: early and accurate time series classification
Data Mining and Knowledge Discovery ( IF 2.8 ) Pub Date : 2020-06-16 , DOI: 10.1007/s10618-020-00690-z
Patrick Schäfer , Ulf Leser

Early time series classification (eTSC) is the problem of classifying a time series after as few measurements as possible with the highest possible accuracy. The most critical issue of any eTSC method is to decide when enough data of a time series has been seen to take a decision: Waiting for more data points usually makes the classification problem easier but delays the time in which a classification is made; in contrast, earlier classification has to cope with less input data, often leading to inferior accuracy. The state-of-the-art eTSC methods compute a fixed optimal decision time assuming that every times series has the same defined start time (like turning on a machine). However, in many real-life applications measurements start at arbitrary times (like measuring heartbeats of a patient), implying that the best time for taking a decision varies widely between time series. We present TEASER, a novel algorithm that models eTSC as a two-tier classification problem: In the first tier, a classifier periodically assesses the incoming time series to compute class probabilities. However, these class probabilities are only used as output label if a second-tier classifier decides that the predicted label is reliable enough, which can happen after a different number of measurements. In an evaluation using 45 benchmark datasets, TEASER is two to three times earlier at predictions than its competitors while reaching the same or an even higher classification accuracy. We further show TEASER’s superior performance using real-life use cases, namely energy monitoring, and gait detection.

中文翻译:

TEASER:早期准确的时间序列分类

早期时间序列分类(eTSC)是在尽可能少的测量之后以最高可能的精度对时间序列进行分类的问题。任何eTSC方法中最关键的问题是确定何时可以看到足够的时间序列数据来做出决定:等待更多的数据点通常会使分类问题更容易,但会延迟分类的时间。相反,较早的分类必须处理较少的输入数据,通常会导致准确性降低。最先进的eTSC方法假设每个时间序列具有相同的定义开始时间(例如打开机器),从而计算出固定的最佳决策时间。但是,在许多实际应用中,测量是在任意时间开始的(例如测量患者的心跳),这意味着在每个时间序列之间做出决定的最佳时间差异很大。我们介绍TEASER,这是一种将eTSC建模为两层分类问题的新颖算法:在第一层中,分类器会定期评估传入的时间序列以计算分类概率。但是,只有当第二级分类器确定预测的标签足够可靠时,才将这些类别概率用作输出标签,这可能会在不同数量的测量之后发生。在使用45个基准数据集进行的评估中,TEASER在预测上比竞争对手快了2-3倍,同时达到了相同甚至更高的分类精度。我们还将通过真实的用例(即能量监控和步态检测)展示TEASER的卓越性能。一种将eTSC建模为两层分类问题的新颖算法:在第一层中,分类器会定期评估传入的时间序列以计算分类概率。但是,只有当第二级分类器确定预测的标签足够可靠时,才将这些类别概率用作输出标签,这可能会在不同数量的测量之后发生。在使用45个基准数据集进行的评估中,TEASER的预测比其竞争对手早两到三倍,同时达到相同甚至更高的分类精度。我们还将通过真实的用例(即能量监控和步态检测)展示TEASER的卓越性能。一种将eTSC建模为两层分类问题的新颖算法:在第一层中,分类器会定期评估传入的时间序列以计算分类概率。但是,只有当第二级分类器确定预测的标签足够可靠时,才将这些类别概率用作输出标签,这可能会在不同数量的测量之后发生。在使用45个基准数据集进行的评估中,TEASER的预测比其竞争对手早两到三倍,同时达到相同甚至更高的分类精度。我们还将通过真实的用例(即能量监控和步态检测)展示TEASER的卓越性能。分类器定期评估传入的时间序列以计算分类概率。但是,只有当第二级分类器确定预测的标签足够可靠时,才将这些类别概率用作输出标签,这可能会在不同数量的测量之后发生。在使用45个基准数据集进行的评估中,TEASER的预测比其竞争对手早两到三倍,同时达到相同甚至更高的分类精度。我们还将通过真实的用例(即能量监控和步态检测)展示TEASER的卓越性能。分类器定期评估传入的时间序列以计算分类概率。但是,只有当第二级分类器确定预测的标签足够可靠时,才将这些类别概率用作输出标签,这可能会在不同数量的测量之后发生。在使用45个基准数据集进行的评估中,TEASER的预测比其竞争对手早两到三倍,同时达到相同甚至更高的分类精度。我们还将通过真实的用例(即能量监控和步态检测)展示TEASER的卓越性能。TEASER的预测比其竞争对手早两到三倍,同时达到相同或什至更高的分类精度。我们还将通过真实的用例(即能量监控和步态检测)展示TEASER的卓越性能。TEASER的预测比其竞争对手早两到三倍,同时达到相同或什至更高的分类精度。我们还将通过真实的用例(即能量监控和步态检测)展示TEASER的卓越性能。
更新日期:2020-06-16
down
wechat
bug