当前位置: X-MOL 学术arXiv.cs.IT › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Inductive Mutual Information Estimation: A Convex Maximum-Entropy Copula Approach
arXiv - CS - Information Theory Pub Date : 2021-02-25 , DOI: arxiv-2102.13182
Yves-Laurent Kom Samo

We propose a novel estimator of the mutual information between two ordinal vectors $x$ and $y$. Our approach is inductive (as opposed to deductive) in that it depends on the data generating distribution solely through some nonparametric properties revealing associations in the data, and does not require having enough data to fully characterize the true joint distributions $P_{x, y}$. Specifically, our approach consists of (i) noting that $I\left(y; x\right) = I\left(u_y; u_x\right)$ where $u_y$ and $u_x$ are the \emph{copula-uniform dual representations} of $y$ and $x$ (i.e. their images under the probability integral transform), and (ii) estimating the copula entropies $h\left(u_y\right)$, $h\left(u_x\right)$ and $h\left(u_y, u_x\right)$ by solving a maximum-entropy problem over the space of copula densities under a constraint of the type $\alpha_m = E\left[\phi_m(u_y, u_x)\right]$. We prove that, so long as the constraint is feasible, this problem admits a unique solution, it is in the exponential family, and it can be learned by solving a convex optimization problem. The resulting estimator, which we denote MIND, is marginal-invariant, always non-negative, unbounded for any sample size $n$, consistent, has MSE rate $O(1/n)$, and is more data-efficient than competing approaches. Beyond mutual information estimation, we illustrate that our approach may be used to mitigate mode collapse in GANs by maximizing the entropy of the copula of fake samples, a model we refer to as Copula Entropy Regularized GAN (CER-GAN).

中文翻译:

归纳式互信息估计:凸最大熵Copula方法

我们提出了一种新颖的估计两个序向量$ x $和$ y $之间的互信息的方法。我们的方法是归纳的(而不是演绎的),因为它仅依赖于通过某些非参数属性生成数据的分布来揭示数据中的关联,并且不需要具有足够的数据来完全表征真实的联合分布$ P_ {x,y } $。具体来说,我们的方法包括(i)注意$ I \ left(y; x \ right)= I \ left(u_y; u_x \ right)$,其中$ u_y $和$ u_x $是\ emph {copula-uniform (y)和$ x $的对偶表示}(即它们在概率积分变换下的图像),以及(ii)估计copula熵$ h \ left(u_y \ right)$,$ h \ left(u_x \ right) $和$ h \ left(u_y,u_x \ right)$通过在类型$ \ alpha_m = E \ left [\ phi_m(u_y,u_x)\ right] $的约束下解决copula密度空间上的最大熵问题来解决。我们证明,只要约束是可行的,这个问题就可以接受一个唯一的解决方案,它属于指数族,并且可以通过解决凸优化问题来学习。所得的估算器(我们称为MIND)是边际不变的,总是非负的,对于任何样本量$ n $都是无界的,一致,MSE率为$ O(1 / n)$,并且比竞争数据效率更高方法。除了相互信息估计之外,我们还说明了我们的方法可用于通过使假样本的copula熵最大化来缓解GAN中的模式崩溃,该模型被称为Copula熵正则化GAN(CER-GAN)。只要约束是可行的,这个问题就可以接受一个唯一的解决方案,它属于指数族,可以通过解决凸优化问题来学习。所得的估算器(我们称为MIND)是边际不变的,总是非负的,对于任何样本量$ n $都是无界的,一致,MSE率为$ O(1 / n)$,并且比竞争数据效率更高方法。除了相互信息估计之外,我们还说明了我们的方法可用于通过使假样本的copula熵最大化来缓解GAN中的模式崩溃,该模型被称为Copula熵正则化GAN(CER-GAN)。只要约束是可行的,这个问题就可以接受一个唯一的解决方案,它属于指数族,可以通过解决凸优化问题来学习。所得的估算器(我们称为MIND)是边际不变的,总是非负的,对于任何样本量$ n $都是无界的,一致,MSE率为$ O(1 / n)$,并且比竞争数据效率更高方法。除了相互信息估计之外,我们还说明了我们的方法可用于通过使假样本的copula熵最大化来缓解GAN中的模式崩溃,该模型被称为Copula熵正则化GAN(CER-GAN)。是边际不变的,总是非负的,对于任何样本量$ n $都是无界的,一致的,MSE率为$ O(1 / n)$,并且比竞争方法更具数据效率。除了相互信息估计之外,我们还说明了我们的方法可用于通过使假样本的copula熵最大化来缓解GAN中的模式崩溃,该模型被称为Copula熵正则化GAN(CER-GAN)。是边际不变的,总是非负的,对于任何样本量$ n $都是无界的,一致的,MSE率为$ O(1 / n)$,并且比竞争方法更具数据效率。除了相互信息估计之外,我们还说明了我们的方法可用于通过使假样本的copula熵最大化来缓解GAN中的模式崩溃,该模型被称为Copula熵正则化GAN(CER-GAN)。
更新日期:2021-03-01
down
wechat
bug