Learning to Speak and Act in a Fantasy Text Adventure Gameのレビュー

arxiv.org
自分の期待する研究とは違う気がしますが、一応レビュー。

 

これまでのコーパスベースの言語モデルは言語記号の相関を学習しているのみで、世界観の学習には成功していない。この問題を解決するために著者らはLIGHTというマルチユーザー参加型のファンタジーアドベンチャーゲームを開発した。

 

このシステム内ではユーザーに加えて言語モデルも会話に参加する。これらのモデルは過去の会話履歴を参照して発話を生成する。既存のシステムと比べ、会話とアクションの両方があり、複数の人間がモデルとやり取りする点が特徴的である。マルチユーザーダンジョンのようなゲームなのでユーザーが楽しくプレイできることもウリである。

 

ゲームシステムの設定のために、663のゲームロケーションと1755のキャラクター、3462のオブジェクトをクラウドソース化した。同時に物理的なアクションと他者に示すエモーションを定義。そして、これらの要素を与えた上で会話をしてもらい、10077対話を得た。

以上のデータから言語モデルを学習した。モデルはTFIDFを用いたものをベースラインとし、Transformer Memory Network(ランクモデルと生成モデル)、BERT Bi-Ranker and Cross-Rankerを比較した。cross-rankerはbiよりも文脈を取り込んでいるが計算コストが大きい。結果はcross-rankerが高いパフォーマンスを示した。

 

コンテキストを扱う上での王道のアプローチだと思いますが、あまりにもコストが高く、今後の展開を見込むならゲーム会社と手を組むしかなさそうですね。案外、近々実現しそうですが、そういうのは大企業に任せよう。