日本語タイトル:頑健で安定な政策学習に向けて:SONYにおける実装

Evaluating the Robustness of Off-Policy Evaluation

執筆者 成田 悠輔(客員研究員)/齋藤 優太(Cornell University)/宇田川 拓麻(ソニーグループ株式会社)/清原 明加(東京工業大学)/茂木 一輝(Stanford University)/舘野 啓(ソニーグループ株式会社)
発行日/NO. 2023年6月  23-E-041
ダウンロード/関連リンク

概要

過去に使用された方策(意思決定アルゴリズム)が作り出したログデータを用いて、別の新しい方策の性能を反実仮想予測することをオフ方策評価(Off-Policy Evaluation; OPE)や政策学習(Policy Leaning)という。OPEは、新しい方策アルゴリズムを実環境でいきなり用いることのリスクやコストの大きい医療・教育・自動運転・消費者サービスなどの応用場面で重宝する。

OPEの手法(推定量)は数多く提案されている。ただ、その多くが調整を要するハイパーパラメタを持つ。そのため、各応用例に合わせて適切なOPE手法を選択し、ハイパーパラメタの調整を行う必要がある。しかし現状では、信頼できる性能を示す手法を、数多くの論文を比較し特定することは困難である。なぜなら、現行の実験手順では、ある特定の性能推定対象となる方策に対して予めうまく性能推定できるようなハイパーパラメタを選択した上で、OPE手法の比較実験を行っているためである。そのため、性能推定対象の方策や使用するハイパーパラメタが異なるかもしれない別の応用場面において、各OPE手法が安定した性能を示すかどうか確かめることができない。

この問題を解決するのが当研究の目的である。そのため、私たちは「解釈性の高いオフライン評価実験手順(Interpretable Evaluation for Offline Evaluation; IEOE)」を提案する。IEOEは、ハイパーパラメタの選択や性能推定の対象となる方策が変わることでOPE手法の正確さがどのように変化するかを比較し評価できる実験手順である。さらにpyIEOEというオープンソースのPythonソフトウェアを開発し、IEOEによる実験手順を規格化した。このソフトウェアを使用することで、研究者は様々なOPE手法を彼らの研究において解釈性の高い方法で比較することができる。実践者が彼らの応用場面に合わせ、それぞれに適したOPE手法を選択することもできる。

私たちはIEOEの有用性を示すため、公開データセットを用いて既存の様々なOPE手法の再評価実験を行った。その結果、驚くべきことに、ハーパーパラメタの少ない単純な手法の方がより高度な手法よりも信頼性の高い結果を示すことが分かった。これは、より高度な手法は良い性能を示すために実験設定に依存した緻密なハイパーパラメタの調整を必要とし、実験設定の変化に脆弱であるためと考えられる。最後に、私たちはIEOEをSONYグループ内のEコマースの実データに適用し、実応用面でのIEOEの利用方法を示すとともにその有用性も確認した。

概要(英語)

Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive settings such as precision medicine and recommender systems. Since many OPE estimators have been proposed and some of them have hyperparameters that need to be tuned, there is an emerging challenge for practitioners to select and tune OPE estimators for their specific application. Unfortunately, identifying a reliable estimator from results reported in research papers is often difficult because the current experimental procedure evaluates and compares the estimators’ performance on a narrow set of hyperparameters and evaluation policies. Therefore, it is difficult to know which estimator is safe and reliable to use. In this work, we develop Interpretable Evaluation for Offline Evaluation (IEOE), an experimental procedure to evaluate OPE estimators’ robustness to changes in hyperparameters and/or evaluation policies in an interpretable manner. Then, using the IEOE procedure, we perform extensive evaluation of a wide variety of existing estimators on the Open Bandit Dataset, a large-scale public real-world dataset for OPE. We demonstrate that our procedure can evaluate the estimators’ robustness to the hyperparameter choice, helping us avoid using unsafe estimators. Finally, we apply IEOE to real-world e-commerce platform data and demonstrate how to use our protocol in practice.