当前位置: X-MOL 学术Distrib. Parallel. Databases › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Stratified random sampling from streaming and stored data
Distributed and Parallel Databases ( IF 1.5 ) Pub Date : 2020-10-23 , DOI: 10.1007/s10619-020-07315-w
Trong Duc Nguyen , Ming-Hung Shih , Divesh Srivastava , Srikanta Tirthapura , Bojian Xu

Stratified random sampling (SRS) is a widely used sampling technique for approximate query processing. We consider SRS on continuously arriving data streams and statically stored data sets. We present a tight lower bound showing that any streaming algorithm for SRS over the entire stream must have, in the worst case, a variance that is $$\varOmega (r)$$ factor away from the optimal, where r is the number of strata. We present S-VOILA, a practical streaming algorithm for SRS over the entire stream that is locally variance-optimal. We prove that any sliding window-based streaming SRS needs a workspace of $$\varOmega (rM\log W)$$ in the worst case, to maintain a variance-optimal SRS of size M, where W is the number of elements in the sliding window. Due to the inherent high workspace needs for sliding window-based SRS, we present SW-VOILA, a multi-layer practical sampling algorithm that uses only O(M) workspace but can maintain an SRS of size close to M in practice over a sliding window. Experiments show that both S-VOILA and SW-VOILA result in a variance that is typically close to their optimal offline counterparts, which was given the entire input beforehand. We also present VOILA, a variance-optimal offline algorithm for stratified random sampling. VOILA is a strict generalization of the well-known Neyman allocation, which is optimal only under the assumption that each stratum is abundant. Experiments show that VOILA can have significantly smaller variance (1.4x to 50x) than Neyman allocation on real-world data.

中文翻译:

从流数据和存储数据中分层随机抽样

分层随机抽样 (SRS) 是一种广泛用于近似查询处理的抽样技术。我们在连续到达的数据流和静态存储的数据集上考虑 SRS。我们提出了一个严格的下界,表明在整个流上的任何 SRS 流算法都必须在最坏的情况下具有与最优值相差 $$\varOmega (r)$$ 因子的方差,其中 r 是地层。我们提出了 S-VOILA,这是一种适用于整个流上的 SRS 的实用流算法,它是局部方差最优的。我们证明任何基于滑动窗口的流 SRS 在最坏情况下都需要 $$\varOmega (rM\log W)$$ 的工作空间,以维持大小为 M 的方差最优 SRS,其中 W 是滑动窗口。由于基于滑动窗口的 SRS 固有的高工作空间需求,我们提出了 SW-VOILA,一种多层实用采样算法,仅使用 O(M) 工作空间,但实际上可以在滑动窗口上保持大小接近 M 的 SRS。实验表明,S-VOILA 和 SW-VOILA 的方差通常接近于它们的最佳离线对应物,这是预先给定的整个输入。我们还提出了 VOILA,一种用于分层随机抽样的方差最优离线算法。VOILA 是著名的 Neyman 分配的严格概括,只有在每个层都丰富的假设下才是最优的。实验表明,VOILA 在真实世界数据上的方差(1.4 倍到 50 倍)比 Neyman 分配要小得多。实验表明,S-VOILA 和 SW-VOILA 的方差通常接近于它们的最佳离线对应物,这是预先给定的整个输入。我们还提出了 VOILA,一种用于分层随机抽样的方差最优离线算法。VOILA 是著名的 Neyman 分配的严格概括,只有在每个层都丰富的假设下才是最优的。实验表明,VOILA 在真实世界数据上的方差(1.4 倍到 50 倍)比 Neyman 分配要小得多。实验表明,S-VOILA 和 SW-VOILA 的方差通常接近于它们的最佳离线对应物,这是预先给定的整个输入。我们还提出了 VOILA,一种用于分层随机抽样的方差最优离线算法。VOILA 是著名的 Neyman 分配的严格概括,只有在每个层都丰富的假设下才是最优的。实验表明,VOILA 在真实世界数据上的方差(1.4 倍到 50 倍)比 Neyman 分配要小得多。只有在每个层都丰富的假设下,这是最优的。实验表明,VOILA 在真实世界数据上的方差(1.4 倍到 50 倍)比 Neyman 分配要小得多。只有在每个层都丰富的假设下,这是最优的。实验表明,VOILA 在真实世界数据上的方差(1.4 倍到 50 倍)比 Neyman 分配要小得多。
更新日期:2020-10-23
down
wechat
bug