RIETI - 離散選択モデルによる選択データの近似

執筆者	Haoge CHANG（Microsoft Research）／成田悠輔（客員研究員）／SAITO Kota（カリフォルニア工科大学）
ダウンロード/関連リンク	ディスカッション・ペーパー:24-E-043 [PDF:746KB] (英語)

このノンテクニカルサマリーは、分析結果を踏まえつつ、政策的含意を中心に大胆に記述したもので、DP・PDPの一部分ではありません。分析内容の詳細はDP・PDP本文をお読みください。また、ここに述べられている見解は執筆者個人の責任で発表するものであり、所属する組織および（独）経済産業研究所としての見解を示すものではありません。

その他特別な研究成果（所属プロジェクトなし）

以下のノンテクニカルサマリーは、ノンテクニカルというよりテクニカルであり、多くの読者を敬遠してしまうだろうと予想している。あらかじめお詫びする。ただ、研究の中には本質的に基礎理論的で技術的で、わかりやすい含意や応用をすぐには示せないものも多い。そして、そういった研究も維持することが多様な応用を花開かせる研究土壌の豊かさに繋がる。そんな思いを込めて、このノンテクニカルでないノンテクニカルサマリーを掲載する次第である。

それではテクニカルな中身を紹介したい。

混合ロジットモデルをはじめとするパラメトリックなランダム係数離散選択モデルは、経済学の多くの実証研究で幅広く応⽤されている。これらのモデルは、選択データ上の選択確率やそれが顕⽰する選好を近似し、代替パターンを捉えるために⽤いられてきた。しかし、ランダム係数モデルがどのくらい柔軟な近似能⼒を持つのか、そしてその限界についてはまだ⼗分に理解されていない。その問題を解決するため、本論⽂では、ランダム係数モデルが任意のノンパラメトリックなランダム効⽤モデルによって⽣成される選択確率を近似できる必要⼗分条件を導いた。この条件は単純で扱いやすく、モデル・環境のいくつかの側⾯に関する不等式で表すことができる。

具体的には、次のようなモデルのクラスを考える。kを説明変数（各選択肢について観察できる属性）の数とし、すべての選択肢の集合をX ⊂ R_kで表す。「効⽤ショックモデル」では、選択集合 D ⊂ X の中の選択肢 x の選択確率は、
ρ(D, x) = μ({ε|u(x) + ε(x) > u(y) + ε(y)∀y∈D \ {x}})
で与えられる。ε は分布 μ に従うランダム効⽤ショックである。効⽤ショックモデルはプロビット、ロジット、⼊れ⼦ロジットなどを特殊例として含む。効⽤ショックモデルのランダム係数版では、選択確率は次のように定義される。mをuに関する分布、ηを固定効果のベクトルとすると、選択確率は次式で与えられる:

ρ(D,x)=∫μ({ε|u(x)+η(x)+ε(x)>u(y)+η(y)+ε(y)∀y∈D\{x}})dm(u), (1)

標準的な解釈では、m は消費者間の選好の異質性を表している。固定効果ηは各選択肢の観測されない属性からの平均効⽤を表すと解釈される。μがiidの多変量I型極値分布であるとき、 ρは混合ロジットモデルになる。混合ロジットモデルは最も広く使われているランダム係数モデルの⼀つである。多くの論⽂は(1)式の効⽤関数u(.)に対して、u(x)が多項式であるなどのパラメトリックな仮定を置く。また、uは線形（つまりu(x) = βx）であると仮定することが多い。u が次数dの多項式である場合のモデルを「次数dのランダム係数効⽤ショックモデル」と呼ぼう。

広く応⽤されているこのモデルの近似能⼒と限界を正確に理解することが私たちの目的である。そのために、次数dのランダム係数効⽤ショックモデルが、任意のランダム効⽤モデルによって⽣成される選択確率を⼗分に近似できる必要⼗分条件を導出する。ノンパラメトリックなランダム効⽤モデルとは、選択肢上のあらゆる選好順位上の何らかの確率尺度として定義される。

必要⼗分条件は、p_d(x)を特徴量xの最⼤次数dの単項式からなるベクトルとしたとき、集合{p_d(x)|x∈X}がアフィン独⽴となることだとわかった。この条件の驚くべき性質は、効⽤ショックεの分布μに依存しないことである。つまり、もしこの条件が満たされないなら、εの分布μがどのようなものであっても（またどのような固定効果を⽤いても）,次数dのランダム係数効⽤ショックモデルで近似できないランダム効⽤モデルにより⽣成される選択確率が存在することを意味する。

アフィン独⽴の条件は検証が容易だが、⼀般的にこの条件はさらに単純な条件|X| ≤ (d+k, k) と等価である。ここで｜X｜は選択肢の数、kは各選択肢について観測される属性の数、dは多項式効⽤関数uの次数である。(d+k, k) という数は、d+kの要素からk個の要素を選ぶ⽅法の数であり、dとkについて増加する。先の条件に基づくと、多項式効⽤関数の次数dと係数の数kが前述の不等式を満たすのに⼗分に⼤きい必要がある。そしてこの条件は簡単に確認できる。たとえば、ほとんどの論⽂が想定しているように d = 1 （線形効⽤関数）のとき、満たすべき条件は |X| ≤ k + 1 となる。

ただし、このアフィン独⽴の条件は、様々な選択肢集合に対する選択確率をすべて近似することを念頭に置いている。場合によっては、研究者は固定された選択肢集合X上で観測された選択確率（例えば市場占有率）にモデルを当てはめることだけに興味があるかもしれない。その場合、必要⼗分条件はアフィン独⽴条件より弱くなり、集合{p_d(x)|x∈X}が凸独⽴（すなわち、任意のx∈Xに対してp_d(x) ̸ co.{pd(y)|y∈X \ x}）であるという性質に帰結する。

多くの実証論⽂では、混合ロジットモデル（すなわち（1）式のμがiidの多変量極値I型分布であるモデル）、さらに（1）式の効⽤関数uが線形（すなわちd＝1）であるモデルが⽤いられている。このような論⽂では、いずれも凸独⽴の条件が満たされていることが分かる。⼀⽅、｜X｜≦k＋1 という条件は、多くの論⽂で満たされていない。これは、線形混合ロジットモデルは単⼀の選択集合Xから観測された選択確率を近似するには⼗分であるが、Xの部分集合間の真の代替パターンを近似するには、パラメータや固定効果をどのように選択しても⼗分でない可能性があることを意味する。

アフィン独⽴の条件が満たされない場合には、近似誤差がどの程度になるかという問いが重要になる。この問いに答えるため、私たちは近似誤差を測定するための2つのアルゴリズムを提案する。1つのアルゴリズムはBarronら(2008)で提案された貪欲アルゴリズムの変種である。このアルゴリズムは、最良の近似性能を持つランダム係数モデルを⾒つけられることが理論的に保証される。もう⼀つのアルゴリズムは、EM(Expectation-Maximization)アルゴリズムである(Dempsterら 1977)。

本論⽂で⽰した定理と2つのアルゴリズムを釣り場選択のデータ（Thomson and Crooke 1991）に応⽤した。このデータセットでは、k = 2と｜X｜ = 4であり、d = 1の場合にはアフィン独⽴の条件に反している。したがって、線形な混合ロジットモデルでは選択確率をうまく近似できない可能性が⽰唆される。そこで最適な線形混合ロジットモデルを推定し、貪欲アルゴリズムとEMアルゴリズムを⽤いて近似誤差を測定した。その結果、どの⽅法を⽤いても近似誤差は⼤きく、平均で10%以上となることがわかった。この結果は、線形混合ロジットモデルではもっともらしい代替パターンを捉えることが難しい可能性を⽰唆している。