当前位置: X-MOL 学术Data Min. Knowl. Discov. › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Interactive visual data exploration with subjective feedback: an information-theoretic approach
Data Mining and Knowledge Discovery ( IF 4.8 ) Pub Date : 2019-10-03 , DOI: 10.1007/s10618-019-00655-x
Kai Puolamäki , Emilia Oikarinen , Bo Kang , Jefrey Lijffijt , Tijl De Bie

Visual exploration of high-dimensional real-valued datasets is a fundamental task in exploratory data analysis (EDA). Existing projection methods for data visualization use predefined criteria to choose the representation of data. There is a lack of methods that (i) use information on what the user has learned from the data and (ii) show patterns that she does not know yet. We construct a theoretical model where identified patterns can be input as knowledge to the system. The knowledge syntax here is intuitive, such as “this set of points forms a cluster”, and requires no knowledge of maths. This background knowledge is used to find a maximum entropy distribution of the data, after which the user is provided with data projections for which the data and the maximum entropy distribution differ the most, hence showing the user aspects of data that are maximally informative given the background knowledge. We study the computational performance of our model and present use cases on synthetic and real data. We find that the model allows the user to learn information efficiently from various data sources and works sufficiently fast in practice. In addition, we provide an open source EDA demonstrator system implementing our model with tailored interactive visualizations. We conclude that the information theoretic approach to EDA where patterns observed by a user are formalized as constraints provides a principled, intuitive, and efficient basis for constructing an EDA system.

中文翻译:

具有主观反馈的交互式视觉数据探索:一种信息理论方法

视觉探索高维实值数据集是探索性数据分析(EDA)的一项基本任务。用于数据可视化的现有投影方法使用预定义的标准来选择数据的表示形式。缺少以下方法:(i)使用有关用户从数据中学到的信息,以及(ii)显示她尚不知道的模式。我们构建了一个理论模型,其中可以将识别出的模式作为系统的知识输入。这里的知识语法是直观的,例如“这组点形成一个聚类”,并且不需要数学知识。使用此背景知识来查找数据的最大熵分布,然后为用户提供数据投影,为此数据和最大熵分布的差异最大,因此,在给定背景知识的情况下,向用户展示的数据具有最大的参考价值。我们研究了模型的计算性能,并针对综合和真实数据提供了用例。我们发现该模型使用户可以从各种数据源中有效地学习信息,并且在实践中可以足够快地工作。此外,我们提供了一个开放源代码的EDA演示器系统,该系统通过量身定制的交互式可视化实现了我们的模型。我们得出结论,EDA的信息理论方法将用户观察到的模式形式化为约束条件,为构建EDA系统提供了有原则,直观和有效的基础。我们发现该模型使用户可以从各种数据源中有效地学习信息,并且在实践中可以足够快地工作。此外,我们提供了一个开放源代码的EDA演示器系统,该系统通过量身定制的交互式可视化实现了我们的模型。我们得出结论,EDA的信息理论方法将用户观察到的模式形式化为约束条件,为构建EDA系统提供了有原则,直观和有效的基础。我们发现该模型使用户可以从各种数据源中有效地学习信息,并且在实践中可以足够快地工作。此外,我们提供了一个开源EDA演示器系统,该系统通过量身定制的交互式可视化实现了我们的模型。我们得出结论,EDA的信息理论方法将用户观察到的模式形式化为约束条件,为构建EDA系统提供了有原则,直观和有效的基础。
更新日期:2019-10-03
down
wechat
bug