当前位置: X-MOL 学术J. R. Stat. Soc. B › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Wang and Leng (2016), High-dimensional ordinary least-squares projection for screening variables, Journal of the Royal Statistical Society Series B, 78, 589–611
The Journal of the Royal Statistical Society, Series B (Statistical Methodology) ( IF 5.8 ) Pub Date : 2021-07-24 , DOI: 10.1111/rssb.12427
Xiangyu Wang 1 , Chenlei Leng 2 , Tom Boot 3
Affiliation  

The conclusion in Lemma 5 in the supplementary material (SM) of Wang and Leng (2016), on which Theorems 1–3 rely, is incorrect. Here we provide an additional condition under which the conclusion of this lemma holds. We assume that the rows of the matrix X follow a Gaussian distribution with precision matrix Ω = Σ−1 that satisfies c 4 - 1 n - τ / 2 λ min ( Ω ) λ max ( Ω ) c 4 n τ / 2 . This implies the assumption on the condition number of Σ in Assumption A3. We drop the assumption that Σii = 1 (SM, Proposition 5).

We append the assumptions in Wang and Leng (2016) with condition (C1) max j , k i | Ω ij - Ω ik | c 0 n 5 τ / 4 p for some constant c0 > 0 and max j k | Ω jj - Ω kk | c 5 n τ / 4 p for some constant c5 > 0. We discuss this assumption in more detail in the final paragraph. Suppose 1 − 15τ/2 − 2κ − ν = ϵ for some ϵ > 0, p ≥ c′·n3/2 for some c′ > 0 and log p = o ( n 1 - 11 τ / 2 - 2 κ - ν - ϵ ¯ ) , where 0 < ϵ ¯ < ϵ . Then, with probability 1 - O ( exp { - n 1 - 11 τ / 2 - 2 κ - ν - ϵ ¯ } ) , for all i ∈ S, | e i H H T β | c · n 1 - τ - κ p and for all j ∉ S, | e j H H T β | c ~ · n 1 - τ - κ - ϵ ¯ / 2 p for some ( c , c ~ ) > 0 . This implies that Lemma 5 holds.

Proof: Write H ( i , j ) = e i T X T ( X X T ) - 1 X e j . As HHT is a projection matrix, j = 1 p H ( i , j ) 2 = H ( i , i ) and hence, min j i | H ( i , j ) | H ( i , i ) / p . By Lemma 4 in Wang and Leng (2016), H ( i , i ) c 2 n 1 + τ / p with probability at least 1 − 4exp(−Cn), and using the reverse triangle inequality max j i | H ( i , j ) | = min j i | H ( i , j ) | + max j , k i ( | H ( i , j ) | - | H ( i , k ) | ) min j i | H ( i , j ) | + max j , k i | H ( i , j ) - H ( i , k ) | ( c 2 ) 1 / 2 n 1 / 2 + τ / 2 / p + max j , k i | H ( i , j ) - H ( i , k ) | with probability at least 1 − 4exp(−Cn). We will first show that for any C > 0 and t > 0, max j , k i | H ( i , j ) - H ( i , k ) | = O n 1 / 2 + 9 τ / 4 + n 1 / 2 + 5 τ / 4 t p with probability 1 − 9p2 exp(−Cn) − 2p2 exp(−t2/2).

We start with |H(3, 1) − H(3, 2)| and obtain the desired result via the union bound. Let xi be the ith column of X, and define X1 = (x1x2) and X2 = (x3x4, …, xp). Partition the precision matrix conformably as Ω = Θ 11 Θ 12 Θ 21 Θ 22 . We can write X1 = X2Γ + E, where Γ = - Θ 21 Θ 11 - 1 and E [ 1 n E T E ] = Θ 11 - 1 . The ith column of E is denoted by ϵi = Eei. Then,
| H ( 3 , 1 ) - H ( 3 , 2 ) | = | x 3 T ( X X T ) - 1 X 2 Γ ( e 1 - e 2 ) + x 3 T ( X X T ) - 1 ( ϵ 1 - ϵ 2 ) | x 3 T ( X X T ) - 1 X 2 X 2 T ( X X T ) - 1 x 3 · Γ ( e 1 - e 2 ) ( I ) + | x 3 T ( X X T ) - 1 ϵ 1 | ( I I ) + | x 3 T ( X X T ) - 1 ϵ 2 | ( I I I ) .
For (I), note that x 3 T ( X X T ) - 1 X 2 X 2 T ( X X T ) - 1 x 3 x 3 T ( X X T ) - 1 x 3 . Using Lemma 4 in Wang and Leng (2016), x 3 T ( X X T ) - 1 x 3 = O n 1 + τ p with probability at least 1 − 4 exp(−Cn). By condition (C1) and the fact that λmax(Ω) ≤ c4nτ/2, we also have that Γ ( e 1 - e 2 ) c ¯ n 7 τ / 4 p 1 / 2 with c ¯ = 2 c 4 ( c 0 + c 4 2 c 5 ) . Thus ( I ) = O n 1 / 2 + 9 τ / 4 p with probability 1 − 4 exp(−Cn).

Let ϵ denote ϵ2 or ϵ3. For (II) and (III), using the Woodbury identity, x 3 T ( X X T ) - 1 ϵ = x 3 T ( X 2 X 2 T ) - 1 ϵ - x 3 T ( X 2 X 2 T ) - 1 X 1 ( I + X 1 T ( X 2 X 2 T ) - 1 X 1 ) - 1 X 1 T ( X 2 X 2 T ) - 1 ϵ , where the first item can be bounded by using the classical tail bound as | x 3 T ( X 2 X 2 T ) - 1 ϵ | x 3 T ( X 2 X 2 T ) - 2 x 3 · | Θ 11 | - 1 / 2 t = O n 1 / 2 + 5 τ / 4 p · t with probability 1 − 2 exp(−t2/2) − 5 exp(−Cn). The second item is bounded as x 3 T ( X 2 X 2 T ) - 1 X 1 ( I + X 1 T ( X 2 X 2 T ) - 1 X 1 ) - 1 X 1 T ( X 2 X 2 T ) - 1 ϵ x 3 T ( X 2 X 2 T ) - 1 x 3 · ϵ T ( X 2 X 2 T ) - 1 ϵ · λ max X 1 T ( X 2 X 2 T ) - 1 X 1 ( I + X 1 T ( X 2 X 2 T ) - 1 X 1 ) - 1 = O n 1 / 2 + 9 τ / 4 p with probability at least 1 − 4 exp(−Cn) and the last equality uses that p ≥ c′·n3/2 for some c′ > 0. Applying a union bound, we conclude that max j , k i | H ( i , j ) - H ( i , k ) | O n 1 / 2 + 9 τ / 4 + n 1 / 2 + 5 τ / 4 t p with probability 1 − 9p2 exp(−Cn) − 2p2 exp(−t2/2).

For iS, | e i T H H T β | = | H ( i , i ) β i + j i H ( i , j ) β j | c 1 - 1 c 2 n 1 - τ - κ p - max i j | H ( i , j ) | s β with probability at least 1 − 4 exp(−Cn). Under Assumption A3 and using the previously established result on max i j | H ( i , j ) | , the second term is negligible compared to the first when 1 − 15τ/2 − 2κ − ν = ϵ for some ϵ > 0, and t = nα with α = 1 / 2 - 11 τ / 4 - κ - ν / 2 - ϵ ¯ / 2 > 0 where 0 < ϵ ¯ < ϵ . If log p = o(n2α), then for all iS, | e i H H T β | c n 1 - τ - κ p for some c > 0 with probability 1 − O( exp {−n2α}). For i ∉ S, we then have | e i T H H T β | = i j H ( i , j ) β j c ~ · n 1 - τ - κ - ϵ ¯ / 2 p for some c ~ > 0 with the same probability. This concludes the proof.

Condition (C1) rules out the general covariance structure stated in the paper, but it helps to explain why HOLP works well for the numerical examples in the paper. In particular, (C1) holds for the examples in 4.1.1 (independent predictors) and 4.1.2 (equicorrelated predictors). Example 4.1.4 is a factor model X = FΛT + V, with F a random n × r matrix, E[FTF/n] = Ir, E[VTV/n] = cIp for some constant c > 0, E[VTF] = 0. If we consider Λ fixed and for simplicity assume that ΛTΛ/p = Ir, we have Ω = c - 1 I p - 1 c + p Λ Λ T so that (C1) holds if the elements of Λ are bounded and r is fixed. Though (C1) does not hold for the examples in 4.1.5 and 4.1.6, the variables in these examples can be partitioned into groups such that variables in the same group satisfy (C1).



中文翻译:

Wang 和 Leng (2016),筛选变量的高维普通最小二乘投影,Journal of the Royal Statistical Society Series B, 78, 589–611

定理 1-3 所依赖的 Wang 和 Leng (2016) 的补充材料 (SM) 中引理 5 中的结论是不正确的。这里我们提供了一个附加条件,在该条件下该引理的结论成立。我们假设矩阵X的行遵循高斯分布,精度矩阵 Ω = Σ -1满足 C 4 —— 1 n —— τ / 2 λ 分钟 ( Ω ) λ 最大限度 ( Ω ) C 4 n τ / 2 . 这意味着对假设 A3 中 Σ 的条件数的假设。我们放弃 Σ ii  = 1(SM,命题 5)的假设。

我们将 Wang 和 Leng (2016) 中的假设附加到条件 (C1) 最大限度 j , 一世 | Ω ij —— Ω 我知道 | C 0 n 5 τ / 4 对于一些常数c 0  > 0 和 最大限度 j | Ω jj —— Ω kk | C 5 n τ / 4 对于一些常数c 5  > 0。我们在最后一段更详细地讨论这个假设。假设 1 − 15 τ /2 − 2 κ  −  ν  =  ϵ对于某些ϵ  > 0,p  ≥  c ′· n 3/2对于某些c ′ > 0 和 日志 = ( n 1 —— 11 τ / 2 —— 2 κ —— ν —— ε ¯ ) , 在哪里 0 < ε ¯ < ε . 那么,概率 1 —— ( 经验值 { —— n 1 —— 11 τ / 2 —— 2 κ —— ν —— ε ¯ } ) , 对于所有i  ∈  S , | 电子 一世 H H β | C · n 1 —— τ —— κ 并且对于所有j  ∉  S | 电子 j H H β | C ~ · n 1 —— τ —— κ —— ε ¯ / 2 对于一些 ( C , C ~ ) > 0 . 这意味着引理 5 成立。

证明:写 H ( 一世 , j ) = 电子 一世 X ( X X ) —— 1 X 电子 j . 由于HH Ť是一个投影矩阵, j = 1 H ( 一世 , j ) 2 = H ( 一世 , 一世 ) 因此, 分钟 j 一世 | H ( 一世 , j ) | H ( 一世 , 一世 ) / . 作者:Wang and Leng (2016) 中的引理 4, H ( 一世 , 一世 ) C 2 n 1 + τ / 概率至少为 1 − 4exp(− Cn ),并使用反三角不等式 最大限度 j 一世 | H ( 一世 , j ) | = 分钟 j 一世 | H ( 一世 , j ) | + 最大限度 j , 一世 ( | H ( 一世 , j ) | —— | H ( 一世 , ) | ) 分钟 j 一世 | H ( 一世 , j ) | + 最大限度 j , 一世 | H ( 一世 , j ) —— H ( 一世 , ) | ( C 2 ) 1 / 2 n 1 / 2 + τ / 2 / + 最大限度 j , 一世 | H ( 一世 , j ) —— H ( 一世 , ) | 概率至少为 1 − 4exp(− Cn )。我们将首先证明对于任何C  > 0 和t  > 0, 最大限度 j , 一世 | H ( 一世 , j ) —— H ( 一世 , ) | = n 1 / 2 + 9 τ / 4 + n 1 / 2 + 5 τ / 4 概率为 1 − 9 p 2  exp(− Cn ) − 2 p 2  exp(− t 2 /2)。

我们从 | H (3, 1) −  H (3, 2)| 并通过联合绑定获得所需的结果。设x iX 的i列,并定义X 1  = ( x 1x 2 ) 和X 2  = ( x 3x 4 , …,  x p )。将精度矩阵一致地划分为 Ω = Θ 11 Θ 12 Θ 21 Θ 22 . 我们可以写出X 1  =  X 2 Γ +  E,其中 Γ = —— Θ 21 Θ 11 —— 1 [ 1 n ] = Θ 11 —— 1 . E 的i列表示为ϵ i  =  Ee i。然后,
| H ( 3 , 1 ) —— H ( 3 , 2 ) | = | X 3 ( X X ) —— 1 X 2 Γ ( 电子 1 —— 电子 2 ) + X 3 ( X X ) —— 1 ( ε 1 —— ε 2 ) | X 3 ( X X ) —— 1 X 2 X 2 ( X X ) —— 1 X 3 · Γ ( 电子 1 —— 电子 2 ) ( 一世 ) + | X 3 ( X X ) —— 1 ε 1 | ( 一世 一世 ) + | X 3 ( X X ) —— 1 ε 2 | ( 一世 一世 一世 ) .
对于(I),注意 X 3 ( X X ) —— 1 X 2 X 2 ( X X ) —— 1 X 3 X 3 ( X X ) —— 1 X 3 . 在 Wang 和 Leng (2016) 中使用引理 4, X 3 ( X X ) —— 1 X 3 = n 1 + τ 概率至少为 1 − 4 exp(− Cn )。根据条件 (C1) 和λ max (Ω) ≤  c 4 n τ /2的事实,我们也有 Γ ( 电子 1 —— 电子 2 ) C ¯ n 7 τ / 4 1 / 2 C ¯ = 2 C 4 ( C 0 + C 4 2 C 5 ) . 因此 ( 一世 ) = n 1 / 2 + 9 τ / 4 概率为 1 − 4 exp(− Cn )。

ϵ表示ϵ 2ϵ 3。对于 ( II ) 和 ( III ),使用伍德伯里恒等式, X 3 ( X X ) —— 1 ε = X 3 ( X 2 X 2 ) —— 1 ε —— X 3 ( X 2 X 2 ) —— 1 X 1 ( 一世 + X 1 ( X 2 X 2 ) —— 1 X 1 ) —— 1 X 1 ( X 2 X 2 ) —— 1 ε ,其中第一项可以通过使用经典尾部绑定作为 | X 3 ( X 2 X 2 ) —— 1 ε | X 3 ( X 2 X 2 ) —— 2 X 3 · | Θ 11 | —— 1 / 2 = n 1 / 2 + 5 τ / 4 · 概率为 1 − 2 exp(− t 2 /2) − 5 exp(− Cn )。第二项的界限为 X 3 ( X 2 X 2 ) —— 1 X 1 ( 一世 + X 1 ( X 2 X 2 ) —— 1 X 1 ) —— 1 X 1 ( X 2 X 2 ) —— 1 ε X 3 ( X 2 X 2 ) —— 1 X 3 · ε ( X 2 X 2 ) —— 1 ε · λ 最大限度 X 1 ( X 2 X 2 ) —— 1 X 1 ( 一世 + X 1 ( X 2 X 2 ) —— 1 X 1 ) —— 1 = n 1 / 2 + 9 τ / 4 概率至少为 1 − 4 exp(− Cn ) 并且最后一个等式使用p  ≥  c ′· n 3/2对某些c ′ > 0。应用联合边界,我们得出结论 最大限度 j , 一世 | H ( 一世 , j ) —— H ( 一世 , ) | n 1 / 2 + 9 τ / 4 + n 1 / 2 + 5 τ / 4 概率为 1 − 9 p 2  exp(− Cn ) − 2 p 2  exp(− t 2 /2)。

对于iS | 电子 一世 H H β | = | H ( 一世 , 一世 ) β 一世 + j 一世 H ( 一世 , j ) β j | C 1 —— 1 C 2 n 1 —— τ —— κ —— 最大限度 一世 j | H ( 一世 , j ) | β 概率至少为 1 − 4 exp(− Cn )。在假设 A3 下并使用先前确定的结果 最大限度 一世 j | H ( 一世 , j ) | 相比,第一,第二项可以忽略不计,当1 - 15 τ / 2 - 2 κ  -  ν  =  ε对于一些ε  > 0,和 =  Ñ α α = 1 / 2 —— 11 τ / 4 —— κ —— ν / 2 —— ε ¯ / 2 > 0 在哪里 0 < ε ¯ < ε . 如果 log  p  =  o ( n 2 α ),那么对于所有iS | 电子 一世 H H β | C n 1 —— τ —— κ 对于某些c  > 0,概率为 1 −  O ( exp {− n 2 α })。对于i  ∉  S,我们有 | 电子 一世 H H β | = 一世 j H ( 一世 , j ) β j C ~ · n 1 —— τ —— κ —— ε ¯ / 2 对于一些 C ~ > 0 以相同的概率。证明到此结束。

条件(C1)排除了论文中陈述的一般协方差结构,但它有助于解释为什么 HOLP 对论文中的数值例子效果很好。特别是,(C1)适用于 4.1.1(独立预测变量)和 4.1.2(等相关预测变量)中的示例。例 4.1.4 是一个因子模型X  =  F Λ T  +  V,其中F是一个随机的n  ×  r矩阵,E[ F T F / n ] =  I r,E[ V T V / n ] =  cI p对于某些常数c > 0, E[ V T F ] = 0. 如果我们考虑 Λ 固定并且为简单起见假设 Λ T Λ/ p  =  I r,我们有 Ω = C —— 1 一世 —— 1 C + Λ Λ 因此,如果 Λ 的元素有界且r是固定的,则 (C1) 成立。尽管 (C1) 不适用于 4.1.5 和 4.1.6 中的示例,但可以将这些示例中的变量划分为组,使得同一组中的变量满足 (C1)。

更新日期:2021-09-22
down
wechat
bug