カーネル法: span{k(x, -) | x∈X}の稠密性

はじめに

この記事は再生核ヒルベルト空間に関する話である。まずは再生核ヒルベルト空間を定義する。 なお、この記事ではヒルベルト空間は実ヒルベルト空間のことを指すことにする。

$$ \require{mathtools} \newcommand{\N}{\mathbb{N}} \newcommand{\R}{\mathbb{R}} \newcommand{\cl}[1]{\overline{#1}} \DeclareMathOperator{\span}{span} \DeclarePairedDelimitersX{\inner}[2]{\langle}{\rangle}{#1, #2} \DeclarePairedDelimiters{\norm}{\lVert}{\rVert} \newcommand{\setsep}[2]{\{#1 \mid #2\}} $$
定義1: 再生核ヒルベルト空間

$X$ を集合とし、$H \subseteq \R^X$ をヒルベルト空間とする。 ある関数 $k\colon X^2\to \R$ が存在して、次の条件を満たすとき、$H$ を再生核ヒルベルト空間という。

  • $k(x,-)\in H\quad (x\in X)$
  • $f(x) = \inner{f}{k(x,-)}\quad (f\in H, x\in X)$ (再生性)

この $k$ を再生核ヒルベルト空間 $H$ の再生核という。

$k\colon X^2 \to \R$ を再生核とする再生核ヒルベルト空間 $H$ の構成法として次の方法がある。

  • $H_0 = \span\setsep{k(x,-)}{x\in X}$ とする。
  • $H = \setsep{X\to \R; x\mapsto \lim_{n\to \infty}f_n(x)}{(f_n\in H_0)_{n\in \N} \text{ がコーシー列}}$ とする。

この $H$ は(適切に内積を定義することで)再生核ヒルベルト空間の条件を満たす。 また、$H$ は $H_0$ の完備化になっていて、$H = \cl{H_0}$ が成り立つ。

ここで逆に、再生核ヒルベルト空間 $H$ に対して、$H_0 = \span\setsep{k(x,-)}{x\in X}$ としたときに、常に $H = \cl{H_0}$ が成り立つのか (上記の構成法以外の再生核ヒルベルト空間であっても、$H = \cl{H_0}$が成り立つのか) という疑問が生まれた。 そういう疑問がある中、[1] で以下のような定理を見た。$H = \cl{H_0}$ が成り立たないような再生核ヒルベルト空間の存在を若干ほのめかしているので、そういう再生核ヒルベルト空間があるのかもしれないな、と思った。

定理2: Moore-Aronszajn の定理

$X$ を集合とし、$k\colon X^2 \to \R$ を正定値カーネルとする。 このとき、$k$ を再生核とする再生核ヒルベルト空間 $H$ であって、 $H_0 = \span\setsep{k(x,-)}{x\in X}$ が $H$ で稠密($H = \cl{H_0}$)であるものが一意に存在する。

しかし、実際には、$H$ が再生核ヒルベルト空間であれば、$H = \cl{H_0}$ が言えることがわかった。 すなわち、以下の定理3が成り立つことがわかった。

定理3

$X$ を集合とする。 $H$ を「$k\colon X^2 \to \R$ を再生核とする再生核ヒルベルト空間」とする。 $H_0 = \span\setsep{k(x,-)}{x\in X}$ としたとき、$H = \cl{H_0}$ が成り立つ。

本記事ではこの定理を証明する。この定理の証明には、射影定理または直交分解を用いるので、準備として射影定理と直交分解を紹介する。

準備(射影定理・直交分解)

射影定理・直交分解については [2] を参考にした。

補題4: 射影定理

$H$ をヒルベルト空間とする。 \(M\) を $H$ の閉部分空間とする。 任意の $x\in H$ に対して、ある \(P_M(x) \in M\) が一意に存在して、 \begin{equation*} \inner{x - P_M(x)}{y} = 0\quad (\forall y \in M) \end{equation*} が成り立つ。言い換えると、ベクトル $x - P_M(x)$ と 閉部分空間 \(M\) が直交するということである。

f:id:paruma184:20220223211510p:plain

$\R^n$ であれば当たり前に成り立つ *1 性質がヒルベルト空間でも成り立つという定理である。 証明で $P_M(x)$ の存在性を言うのに極限を用いるので、$H$が完備であることや\(M\)が閉集合であることが必要になる。 以下の直交分解は射影定理の系である。

補題5: 直交分解

$H$ をヒルベルト空間とする。 \(M\) を$H$ の閉部分空間とする。 $M^\perp = \setsep{x\in H }{\inner{x}{y} = 0 \ (\forall y\in M)}$ について、$H = M \oplus M^\perp$ が成り立つ。 すなわち、任意の $x\in H$ に対して $x_{M}\in M, x_{M^\perp}\in M^\perp$ が一意に存在して $x = x_{M} + x_{M^\perp}$ が成り立つ。 ($M^\perp$ を \(M\) の直交補空間という。)

f:id:paruma184:20220223212827p:plain

存在性については、$x_M = P_M(x),\ x_{M^\perp} = x - P_M(x)$ とすれば証明できる。一意性も簡単に証明できる。

射影定理と直交分解については、表現の仕方が少し違うだけで本質的には同じことを言っている。本によっては直交分解できることを射影定理と呼ぶ場合もある。

本題(span{k(x, -) | x∈X}の稠密性)

準備ができたので、定理3を証明する。 射影定理を使用した証明を1つ、直交分解を使用した証明を2つ紹介する。 見た目がほんの少し違うだけで、やっていることはどれもほとんど同じである。

定理3(再掲)

$X$ を集合とする。 $H$ を「$k\colon X^2 \to \R$ を再生核とする再生核ヒルベルト空間」とする。 $H_0 = \span\setsep{k(x,-)}{x\in X}$ としたとき、$H = \cl{H_0}$ が成り立つ。

(1) 射影定理を使った証明

$H \supseteq \cl{H_0}$ は明らか。 $H \subseteq \cl{H_0}$ を示す。

$f\in H$ を任意に取る。 $g = f - P_{\cl{H_0}}(f)$ とすると、 $g$ は $\cl{H_0}$ と直交する。 再生性から $g= 0$ が成り立つ。 (以下、$g=0$ を証明する。)

$x\in X$ を任意に取る。 再生性から、 $g(x) = \inner{g}{k(x,-)}$ である。 $g$ は $\cl{H_0}$ と直交し $k(x,-)\in \cl{H_0}$ であることから、 $\inner{g}{k(x,-)} = 0$ である。つまり $g(x) = 0$ である。 このことから、$g = 0$ が言える。

よって、$f = P_{\cl{H_0}}(f) \in \cl{H_0}$ が言える。 つまり、$H \subseteq \cl{H_0}$ が成り立つ。

以上から、$H = \cl{H_0}$ が成り立つ。

(2) 直交分解を使った証明1

$H \supseteq \cl{H_0}$ は明らか。 $H \subseteq \cl{H_0}$ を示す。

$f\in H$ を任意に取る。 $H = \cl{H_0} \oplus {\cl{H_0}}^\perp$ から、 $f = f_{\cl{H_0}} + f_{{\cl{H_0}}^\perp}$ となる $f_{\cl{H_0}} \in \cl{H_0}$ と $f_{{\cl{H_0}}^\perp} \in {\cl{H_0}}^\perp$ が存在する。 再生性から $f_{{\cl{H_0}}^\perp} = 0$ が成り立つ。

$x\in X$ を任意に取る。 再生性から、 $f_{{\cl{H_0}}^\perp}(x) = \inner{f_{{\cl{H_0}}^\perp}}{k(x,-)}$ である。 $f_{{\cl{H_0}}^\perp}\in \cl{H_0}^\perp$ と $k(x,-)\in \cl{H_0}$ から、 $\inner{f_{{\cl{H_0}}^\perp}}{k(x,-)} = 0$ である。つまり $f_{{\cl{H_0}}^\perp}(x) = 0$ である。 このことから、$f_{{\cl{H_0}}^\perp} = 0$ が言える。

よって、$f = f_{\cl{H_0}} \in \cl{H_0}$ が言える。 つまり、$H \subseteq \cl{H_0}$ が成り立つ。

以上から、$H = \cl{H_0}$ が成り立つ。

(3) 直交分解を用いた証明2

${\cl{H_0}}^\perp = \set{0}$ である。

${\cl{H_0}}^\perp = \setsep{g\in H}{\inner{g}{h} = 0\ (\forall h \in \cl{H_0})}$ と定義されることに注意する。 ${\cl{H_0}}^\perp \supseteq \set{0}$ は明らかである。 ${\cl{H_0}}^\perp \subseteq \set{0}$ を示す。

$g\in {\cl{H_0}}^\perp$ を任意に取る。 再生性から $g = 0$ である。

$x\in X$ を任意に取る。 再生性から、 $g(x) = \inner{g}{k(x,-)}$ である。 $g\in \cl{H_0}^\perp$ と $k(x,-)\in \cl{H_0}$ から、 $\inner{g}{k(x,-)} = 0$ である。つまり $g(x) = 0$ である。 このことから、$g = 0$ が言える。

よって、${\cl{H_0}}^\perp \subseteq \set{0}$ が成り立つ。

以上から、${\cl{H_0}}^\perp = \set{0}$ である。

直交分解をすることで、$H = \cl{H_0} \oplus {\cl{H_0}}^\perp = \cl{H_0}$ が得られる。

(1)は射影定理が好きな人向けの証明である。 (2)は(1)を直交分解で書き直したものである。 (2)は表現定理(Representer Theorem)の証明にも現れる証明方法である。 (3)は再生性によって $\cl{H_0}$ の直交補空間が潰れていること(${\cl{H_0}}^\perp = \set{0}$)に着目した証明である。 見方が少し違うだけで、やっていることはどれもほとんど同じである。

余談

定理3の一般化

定理3は一般のヒルベルト空間の定理として一般化できる。

定理6: ヒルベルト空間での稠密性の必要十分条件

$H$ をヒルベルト空間とし、$S \subseteq H$ を部分集合とする。 $S^\perp = \setsep{x\in H }{x \perp S}$ とする。 このとき、 \begin{equation*} H = \cl{\operatorname{span} S} \iff S^\perp = \set{0} \end{equation*} が成り立つ。

右向きの矢印の証明は易しい。左向きの矢印は定理3と同様に射影定理(直交分解)で証明できる。

$S= \setsep{k(x,-)}{x\in X}$ とすることで、この定理6から定理3が証明できる(再生性から $S^\perp = \set{0}$ である)。 ([3] でこの定理6を偶然知って定理3が証明できたという背景がある。)

表現定理 (Representer Theorem)

定理3の2つ目の証明の方法が表現定理にも現れるという話をした。そこで、少し表現定理に触れる。 再生核ヒルベルト空間は統計や機械学習の分野で応用されていて、例えばリッジ回帰や SVM や PCA などに応用されている。 ここではリッジ回帰を例として表現定理を取り上げる。

$X$ を集合とし、$H$ を「$k\colon X^2 \to \R$ を再生核とする再生核ヒルベルト空間」とする。 $\lambda >0$ としたとき、 \(((x_i, y_i)\in X\times \R)_{i=1}^n\) を学習データとするカーネルリッジ回帰の最適化問題は次のように書ける。 \begin{equation*} \min_{f\in H} \sum_{i=1}^n (y_i - f(x_i))^2 + \lambda \norm{f}^2 \end{equation*} $M = \span\setsep{k(x_i,-)}{i\in\set{1,\ldots n}}$ とする。 表現定理の主張は、「上記の最適化問題に最適解が存在するなら \(M\) に最適解が含まれている($f\in H$ という制約を \(f\in M\) にしてもよい)」というものである。 上記の最適化問題は無限次元かもしれない空間 $H$ 上の最適化問題である。表現定理によって $n$ 次元の空間 \(M\) 上での最適化問題を解けば良いことになる。

カーネルリッジ回帰の場合の表現定理を証明する。

カーネルリッジ回帰の場合の表現定理の証明

$f\in H$ を 任意に取る。 $H = M \oplus M^\perp$ から、 $f = f_M + f_{M^\perp}\ (f_M\in M, f_{M^\perp}\in M^\perp)$ と直交分解できる(\(M\)は有限次元部分空間なので閉部分空間であることに注意)。 ここで、$f_{M^\perp}(x_i) = 0$ が言える。

再生性から、$f_{M^\perp}(x_i) = \inner{f_{M^\perp}}{k(x_i, -)}$ である。 $f_{M^\perp}\in M^\perp$ と \(k(x_i,-)\in M\) から、 $\inner{f_{M^\perp}}{k(x_i,-)} = 0$ である。つまり $f_{M^\perp}(x_i) = 0$ である。

(定理3の2つ目の証明のように $f_{M^\perp} = 0$ が言えるわけではないが、 定理3の2つ目の証明と同様の方法で $f_{M^\perp}(x_i) = 0$ が言える。) また、 $\norm{f}^2 = \norm{f_M}^2 + \norm{f_{M^\perp}}^2$ が成り立つ。 よって、最適化問題の目的関数 $L\colon H\to \R$ \begin{equation} L(f) = \sum_{i=1}^n (y_i - f(x_i))^2 + \lambda \norm{f}^2 \end{equation} について、 $L(f_M) \leq L(f)$ が成り立つ。 貪欲法のノリでいうと、$f$ を \(f_M\) に変えても損をしないということである。 以上から、最適解が存在したら \(M\) の中に最適解が含まれていることがわかる。

定理3の2つ目の証明が表現定理の証明と似ていたので、ここで表現定理を紹介した。

なお、実際の表現定理では、SVMやPCAの最適化問題などいろいろな最適化問題に使えるように一般化されている。

参考文献

  • [1] 福水 健次. カーネル法入門―正定値カーネルによるデータ解析―. 朝倉書店, 2010, (シリーズ 多変量データの統計科学, 7).
  • [2] 山田 功. 工学のための関数解析. 数理工学社, 2009, (工学のための数学, EKM-6).
  • [3] 金森 敬文. 統計的学習理論. 講談社, 2015, (機械学習プロフェッショナルシリーズ).

*1:$M\subseteq \R^n$ を部分空間として、\(M\) の正規直交基底を $\set{u_1,u_2,\ldots u_k}$ とする。 このとき、$x\in \R^n$ に対して $P_M(x) = \sum_{i=1}^k \inner{x}{u_i}u_i$ である(一意性も言える)。 よって、$\R^n$ での射影定理が言える。