第七回 先を見るか前を見るか

  第7回のお話は「1日千円もらえるか、1週間後に1万円もらえるか」という話です。正確には今が月曜だとして月曜日から日曜日まで1日1000円、合計7000円もらえる、もしくは日曜日に10000円もらえるかどちらを選びますかということですね。そんな単純な話じゃないだろと思いますけど、ただ一週間後(正確には6日後)に10000円をもらうために我慢できるのかどうか、つまり未来に投資できるかというものを数値で表せるかな〜、、、ということを考えてみます。ここではベルマン方程式を考えて普通に計算していきます。

 

  ベルマン方程式は強化学習などの分野で使われているのもので、今回はこれの考え方を拝借して上の話をモデル化してみる。まず手に入るお金をrとしておく。そして未来(1日後)に得られるお金の割引率をγ(γは0~1)とする。これは未来に得られる報酬の価値の見た目が小さくなることを表していて、この数値が小さいと我慢できない(逆にいうとこの数値が大きいと我慢できる)ということである。すると1日後の価値R1(今から見たお金の見た目)はR1=γrとなる。二日後では価値R2はR2=γR1=γ^2r、三日後はR3=γ^3r、、、となる。式にするとΣRn=Σγ^nrとなる。

  例えばγ=0.5としたとき、1日1000円の場合

  月曜    1000円

  火曜      500円(1000×0.5)

  水曜      250円(1000×0.5×0.5)  

  木曜       125円(1000×0.5×0.5×0.5)

  金曜     62.5円(1000×0.5×0.5×0.5×0.5)

  土曜    31.25円(1000×0.5×0.5×0.5×0.5×0.5)  

  日曜  15.625円(1000×0.5×0.5×0.5×0.5×0.5×0.5) 

  合計 1984円(小数点は切り捨てた)

  

  一方、日曜日に10000円もらえるとしたら

  月曜           0円

  火曜           0円(0×0.5)

  水曜           0円(0×0.5×0.5)  

  木曜           0円(0×0.5×0.5×0.5)

  金曜           0円(0×0.5×0.5×0.5×0.5)

  土曜           0円(0×0.5×0.5×0.5×0.5×0.5)  

  日曜       156円(10000×0.5×0.5×0.5×0.5×0.5×0.5) 

  合計     156円(小数点は切り捨てた)

 

  γ=0.5の場合は「1日 1000円」の方が価値があるということ、それを選ぶということと捉えられる。

  次に考えたいのはγがいくつ以上なら「一週間後に10000円」を選ぶことになるのかということだ。

  1000Σγ^n(n:0~6)=10000γ^6

  この式を解ければいいのだが大変そうなので両辺をγの関数としてグラフにしてみると

f:id:MArchen:20200612164022p:plain

このようになる。雑だが横軸ガンマ、縦軸が価値、青が左辺「1日1000円」、オレンジが右辺「1週間後に1万円」である。だいたい0.9(90%)あたりでオレンジのグラフが青のを抜かすのがわかる。「1週間後に1万円」を選ぶということは割引率γが90%以上ということである。

 

  雑なグラフに考察ですみません。あとまだ第六回が公開できてないのもすみません。今回はただ「1日1000円」、「1週間後に1万円」の話はベルマン方程式で考えてみることができるのではないかと思い立ったためだけに書いた話です。そのため深い話はないのでいつかモンテカルロ法なんかの話を書ければいいかなって話をして、このへんでお暇します。