myumori diary

Live like a cat

Sun, Feb 19, 2017

10時起床.

12時〜16時頃まで時系列勉強会の続き. 本題ではないのだが, あるモデル

 y_i = g(x_i) + \epsilon_i, \hspace{10pt} \text{where} \hspace{5pt} \epsilon_i \ \overset{\text{i.i.d.}}{\sim} f(\mu, \sigma^2)

から得られたデータ \{y_i, x_i\}があり, ここで関数 gニューラルネットワークで近似した場合, どんな性質の推定量 \hat{g}_n(n: sample size)が手に入るのか, という話題がでた.

特に, 一般的に推定量の性能を評価する際に使われる一致性 (i.e,  \hat{g_n}(x) \overset{p}{\rightarrow} g(x), \forall x) に相当するものが考えられるのか, が気になった. 調べたところ,

  • 任意の連続関数は, いくつかの条件を満たす関数を活性化関数に用いた3層(i.e, 入力層/1層の中間層/出力層)のパーセプトロンで一様に近似できる(Universal Approximation Theorem)
  •  gに関する一定の条件のもとで, 上のモデルから得られたデータを用いて3層のパーセプトロンを学習させれば,  gを一致推定することができる(Mielniczuk&Tyrcha(1993))

が言えるようだ.

前者は活性化関数がsigmoidの場合(Cybenko(1989)) *1が有名で, ざっと見た限りわたしでも読めそう. 一方で後者は関数 gが含まれる関数のクラスを扱う必要があり, 前提知識がある程度必要なようだ.

この話題はエコノメとの共通点が多く, 面白そうなので今後勉強していきたい.

夜は同級生で集まり, SHIROBAKOのBDを観た. 時間の制約上1〜10話までしか観ることができなかったが, 既視聴組が途中途中で盛り上がっているのをよそに, 初視聴組は食い入るように観てくれていたので嬉しかった.

*1:George Cybenko. (1989). Approximation by Superpositions of a Sigmoidal Function. Math. Control Signals Systems, Vol. 2., 303-314.

Sat, Feb 18, 2017

日記 #とは. もはや何をやっていたか忘れてしまった……

たしか一日中RA用のプログラムを書いていた気がする. 携帯電話の通話記録を使って交通量等を調べているのだが, 通常のエコノメの講義/演習等で使うパネルデータ等と違って扱いが難しい. というか, どう適切に扱えばいいのかわからない.

Fri, Feb 17, 2017

たしか9時頃起床.

午前中は雑用をしつつ, RA業務で昨日から動かしていたプログラムの実行結果を眺めていた. 途中でプログラムのバグを発見し, 鬱病になった.

その後アキバハラでインドカレーを食べた後, NPO法人の事務所に行ってカンボジア旅行の打ち合わせをした. 一応助成金で旅行に行くのでとおつかいを頼まれた.

午後はインターン(名ばかり, 実際はバイト)に行き, 溜まっていたタスクを消化した. 最近はクローラーのお守りをしているだけになりつつあるので, いつ辞めようかと考えている.

Thu, Feb 16, 2017

たしか8時くらいに起床.

15時から計量のゼミがあったので, それまで題材になっていた論文を学部のラウンジで読んでいた. 話題はSupermodular Gameの構造推定. 詳細はまた今度.

19時頃までゼミをやり, その後教員用の共同研究室で鍋会🍲をした. 共有スペースで鍋をするのは許されているのかと毎度不安になる. 教員とゼミ生4人で24時過ぎまで飲み食いしていた.

Tue, Feb 14, 2017

7時半起床.

図書館に行って情報理論の良さそうなテキストを調べたが, あまり品揃えがよくなかったので書店で情報理論の手頃そうな本を買った.

その後花粉症の薬をもらいに病院へ. Google Mapで耳鼻科を検索したのだが, 休業日だったり廃業していたりして1時間近く病院を探し回る羽目になった. Google Mapを信用してはいけない.

ANUの教授から連絡がきて, 東大からもう1人M2の人が一緒にANUに行くことになった. 面識が無いのだが, Juliaが書けるらしい. 往復25万円の航空券を購入した件については特に咎められなかった.


(a)  \newcommand{\E}{\mathrm{E}} \E[XY] = 0 と (b)  \E[X|Y] = 0 は同じようなものだと思っていたが, 違うらしい. というのも,

 \begin{align} \E[XY]  = \E_Y [ Y \E_{X|Y} [X | Y] ] = \E_Y [Y \times 0 ] = 0\end{align}

より(b)⇒(a) だが, fを非線形な関数とすると

 \text{(a)} \Rightarrow \E[X f(Y)] \neq 0

 \text{(b)} \Rightarrow \E[X f(Y)] =  \E_Y[f(Y) \E_{X | Y}[X | Y]]  =  \E_Y[f(Y) \times 0] = 0

より, (a) not ⇒ (b)なので.

Wed, Feb 15, 2017

8時起床. 昨夜コードを書いていたらそのまま椅子で寝落ちしてしまった.

時系列勉強会でハミルトン上巻の8章(時系列モデルに対する最小二乗法関連の話)を読んだ. その際, 「AR(1)モデルのパラメータをOLS(ordinary least squares)で推定しても不偏推定量にはならない」という点でハマった(後述).

コアエコノメの成績が開示され, 無事Aであった. ただしAは9位〜18位相当ということなので, 今後他の大学院に行くのであれば再履修する必要があるかも. 同ゼミの某氏はA+だったようだ. さすが.

その後エコノメのTAの方と話したら, ネットワークの勉強会に誘ってくださった. ありがたや.

オーストラリアの件とは別件で, 3月26日〜31日までプノンペンカンボジア)に行くことになった. たまに顔を出しているNPO法人で今年度分のチケットが余ったので, ということだそうだ. 航空券, ホテル, ビザ, 保険その他の交通費等を負担してくれるらしい.

AR(1)モデル:

 \begin{align} y_t = b_0 + b_1 y_{t-1} + \epsilon_t, \ \text{where} \ \epsilon_t \overset{\text{i.i.d.}}{\sim} N(0, 1) \end{align}

の係数 b_0, b_1を素朴に最小二乗法で推定すると, OLS推定量 \beta_0, \beta_1は一致推定量だが, 不偏推定量ではなくなるらしい.

データ y_tが0期〜T期まであるとすると, OLS推定量は

 \begin{align} \min_{\beta_0, \beta_1} \sum_{t=1}^{T} (y_t - \beta_0 - \beta_1 y_{t-1})^{2} \end{align}

を与える \beta_0, \beta_1となる. いま

 \begin{align} 
  Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_T \end{bmatrix}, \ 
  X = \begin{bmatrix} 1 & y_0 \\ 1 & y_1 \\ \vdots & \vdots \\ 1 & y_{T-1} \end{bmatrix}, \ 
  b= \begin{bmatrix} b_0 \\ b_1 \end{bmatrix}, \ 
  \beta = \begin{bmatrix} \beta_0 \\ \beta_1 \end{bmatrix}, \ 
  \epsilon = \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_T \end{bmatrix} \ 
\end{align}

とおけば, 真のモデルと最小化問題は

 \begin{align} Y_T &= X b + \epsilon \end{align}

 \begin{align} \min_{\beta} &\ (Y_T - X^T \beta)^T (Y_T - X^T \beta) \end{align}

となる.  \betaについてF.O.Cを解けば,

 \begin{align} 
\beta &= (X^T X)^{-1} X^T Y \\
&= b + (X^T X)^{-1} X^T \epsilon \\
&= b + \left( \frac{1}{T} \sum_{t=1}^{T} \begin{bmatrix} 1 & y_{t-1} \\ y_{t-1} & y_{t-1}^2 \end{bmatrix} \right)^{-1}  \frac{1}{T} \sum_{t=1}^{T} \begin{bmatrix} 1 \\ y_{t-1} \end{bmatrix} \epsilon_{t}
\end{align}

 \newcommand{\E}{\mathrm{E}} \beta bの一致推定量であることは,  \E[y_t^2] < \inftyを仮定すれば, 大数の法則から

 \begin{align} 
&\frac{1}{T} \sum_{t=1}^{T} \epsilon_{t} \stackrel{p}{\longrightarrow }  \E[\epsilon_{t}] = 0 \\
&\frac{1}{T} \sum_{t=1}^{T} y_{t-1} \epsilon_{t} \stackrel{p}{\longrightarrow }  \E[y_{t-1} \epsilon_{t}] = \E[y_{t-1} \E[\epsilon_t | y_{t-1}]] = 0 \\
&\frac{1}{T} \sum_{t=1}^{T}  \begin{bmatrix} 1 & y_{t-1} \\ y_{t-1} & y_{t-1}^2 \end{bmatrix} \stackrel{p}{\longrightarrow }  E\left[\begin{bmatrix} 1 & y_{t} \\ y_{t} & y_{t}^2 \end{bmatrix}\right]
\end{align}

よりわかる(ただし2番目と3番目はデータがiidでなく, それ用のLLNが必要).

以下2017/2/17改訂

一方で \beta bの不偏推定量にならないのは,  \epsilon_t y_{t},  y_{t+1},  y_{t+2}, \ldotsが相関していることに起因する. 具体的には

 \begin{align} 
\E[\beta - b] &= \E[(X^T X)^{-1} X^T \epsilon] \\
&= \E\left[
      \begin{bmatrix} T & \sum_{t=1}^{T} y_{t-1} \\ \sum_{t=1}^{T} y_{t-1} & \sum_{t=1}^{T} y_{t-1}^2 \end{bmatrix}^{-1} 
      \begin{bmatrix} 1 & 1 & \ldots & 1 \\ y_0 & y_1 & \ldots & y_{T-1} \end{bmatrix}
      \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_T \end{bmatrix} 
      \right] \\
&= \E\left[
      \cfrac{1}{\sum y_{t-1}^2 - (\sum y_{t-1})^2}
      \begin{bmatrix} \sum y_{t-1}^2 & -\sum y_{t-1} \\ -\sum y_{t-1} & T \end{bmatrix}
      \begin{bmatrix} \sum \epsilon_t \\ \sum y_{t-1} \epsilon_t \end{bmatrix} 
      \right] \\
&= \E\left[
      \cfrac{1}{\sum y_{t-1}^2 - (\sum y_{t-1})^2}
      \begin{bmatrix} (\sum y_{t-1}^2)(\sum \epsilon_t) - (\sum y_{t-1})(\sum y_{t-1} \epsilon_t) \\ -(\sum y_{t-1}) (\sum \epsilon_t) + T(\sum y_{t-1} \epsilon_t) \end{bmatrix} 
      \right] \\
\end{align}

のようになる.  \epsilon_t y_{t+1}以降のクロス項がでてきているので結果は \mathbb{0}になりそうもないが, 実際にどの程度のbiasがあるのかはわかっていない.

ちょうどAR(1)のOLS推定量のbiasを解析する論文を見つけたので, あとで読んでみる.

ところではてなブログ, 数式がものすごく書きづらい. 例えば &= で式の位置を縦に揃えることができない. なんとかしたいが……

Mon, Feb 13, 2017

10時半起床.

渋谷駅構内にある神戸屋キッチンの店舗改装が終わったようなので, 牛ほほ肉のシチューを食べに行った. ブレッドバー🍞のパンをシチューに浸して食べるのがおいしい.

その後本郷で時系列の輪読会. ハミルトンの上巻 の7章を読んだ. 2月中に下巻に入りたいらしいが, 無理じゃないだろうか.

最近情報量(wikipedia)がどういうものなのか気になっている. 情報科学で出てくる情報量と, 統計で出てくる情報量は同じものなのだろうか.

ガヴリ―ルドロップアウトを視聴して就寝. 今期2番目にすきなアニメ(1番はメイドラゴン).