当前位置: X-MOL 学术arXiv.cs.GT › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Learning to Persuade on the Fly: Robustness Against Ignorance
arXiv - CS - Computer Science and Game Theory Pub Date : 2021-02-19 , DOI: arxiv-2102.10156
You Zu, Krishnamurthy Iyer, Haifeng Xu

We study a repeated persuasion setting between a sender and a receiver, where at each time $t$, the sender observes a payoff-relevant state drawn independently and identically from an unknown prior distribution, and shares state information with the receiver, who then myopically chooses an action. As in the standard setting, the sender seeks to persuade the receiver into choosing actions that are aligned with the sender's preference by selectively sharing information about the state. However, in contrast to the standard models, the sender does not know the prior, and has to persuade while gradually learning the prior on the fly. We study the sender's learning problem of making persuasive action recommendations to achieve low regret against the optimal persuasion mechanism with the knowledge of the prior distribution. Our main positive result is an algorithm that, with high probability, is persuasive across all rounds and achieves $O(\sqrt{T\log T})$ regret, where $T$ is the horizon length. The core philosophy behind the design of our algorithm is to leverage robustness against the sender's ignorance of the prior. Intuitively, at each time our algorithm maintains a set of candidate priors, and chooses a persuasion scheme that is simultaneously persuasive for all of them. To demonstrate the effectiveness of our algorithm, we further prove that no algorithm can achieve regret better than $\Omega(\sqrt{T})$, even if the persuasiveness requirements were significantly relaxed. Therefore, our algorithm achieves optimal regret for the sender's learning problem up to terms logarithmic in $T$.

中文翻译:

学习说服苍蝇:鲁Against反对无知

我们研究了发送方和接收方之间的重复说服设置,其中每次$ t $时,发送方都会观察到与收益相关的状态,该状态独立且相同地从未知的先验分布中得出,并与接收方共享状态信息,然后接收方进行近视选择一个动作。与标准设置一样,发送者通过有选择地共享有关状态的信息,试图说服接收者选择符合发送者偏好的动作。但是,与标准模型相比,发送者不知道先验,而必须说服,同时要在运行中逐步学习先验。我们研究发件人的学习问题,即提出有说服力的行动建议,以利用先验分布的知识,针对最佳的说服机制实现较低的后悔。我们的主要正面结果是一种算法,该算法极有可能在所有回合中具有说服力,并能使$ O(\ sqrt {T \ log T})$后悔,其中$ T $是视域长度。算法设计背后的核心理念是利用鲁棒性来防止发件人对先验信息的无知。直观地讲,我们的算法每次都维护一组候选先验,并为所有这些选择一个同时具有说服力的说服方案。为了证明我们算法的有效性,我们进一步证明,即使说服力要求大大放松,也没有算法能比$ \ Omega(\ sqrt {T})$更好地实现后悔。因此,对于$ T $的对数项,我们的算法为发送方的学习问题实现了最佳后悔。在所有回合中具有说服力,并获得$ O(\ sqrt {T \ log T})$遗憾,其中$ T $是视域长度。算法设计背后的核心理念是利用鲁棒性来防止发件人对先验信息的无知。直观地讲,我们的算法每次都维护一组候选先验,并为所有这些选择一个同时具有说服力的说服方案。为了证明我们算法的有效性,我们进一步证明,即使说服力要求大大放松,也没有算法能比$ \ Omega(\ sqrt {T})$更好地实现后悔。因此,对于$ T $的对数项,我们的算法为发送方的学习问题实现了最佳后悔。在所有回合中具有说服力,并获得$ O(\ sqrt {T \ log T})$遗憾,其中$ T $是视域长度。算法设计背后的核心理念是利用鲁棒性来防止发件人对先验信息的无知。直观地讲,我们的算法每次都维护一组候选先验,并为所有这些选择一个同时具有说服力的说服方案。为了证明我们算法的有效性,我们进一步证明,即使说服力要求大大放松,也没有算法能比$ \ Omega(\ sqrt {T})$更好地实现后悔。因此,对于$ T $的对数项,我们的算法为发送方的学习问题实现了最佳后悔。算法设计背后的核心理念是利用鲁棒性来防止发件人对先验信息的无知。直观地讲,我们的算法每次都维护一组候选先验,并为所有这些选择一个同时具有说服力的说服方案。为了证明我们算法的有效性,我们进一步证明,即使说服力要求大大放松,也没有算法能比$ \ Omega(\ sqrt {T})$更好地实现后悔。因此,对于$ T $的对数项,我们的算法为发送方的学习问题实现了最佳后悔。算法设计背后的核心理念是利用鲁棒性来防止发件人对先验信息的无知。直观地讲,我们的算法每次都维护一组候选先验,并为所有这些选择一个同时具有说服力的说服方案。为了证明我们算法的有效性,我们进一步证明,即使说服力要求大大放松,也没有算法能比$ \ Omega(\ sqrt {T})$更好地实现后悔。因此,对于$ T $的对数项,我们的算法为发送方的学习问题实现了最佳后悔。为了证明我们算法的有效性,我们进一步证明,即使说服力要求大大放松,也没有算法能比$ \ Omega(\ sqrt {T})$更好地实现后悔。因此,对于$ T $的对数项,我们的算法为发送方的学习问题实现了最佳后悔。为了证明我们算法的有效性,我们进一步证明,即使说服力要求大大放松,也没有算法能比$ \ Omega(\ sqrt {T})$更好地实现后悔。因此,对于$ T $的对数项,我们的算法为发送方的学习问题实现了最佳后悔。
更新日期:2021-02-23
down
wechat
bug