AIエージェントの住む世界

2019年9月20日

AIエージェントは高き頂きを目指しつつ、地図作成の旅をする

本記事では、AIエージェントが住む世界に関して触れてみたいと思います。彼らが生活をし、利益追求の旅をする世界は、そのイメージを可視化すると以下のようになります。

下に広がる平面には、テクニカル情報やニュース情報の無数の組み合わせが拡がっています。そして山の高さは期待される利益の大きさです。トレーディング手法には唯一の正解が無いため、上記イメージ図のように多くの山が存在する、そんな世界に彼らは住んでいます。しかもその世界は３つの並行世界（パラレルワールド）を持っており、AIエージェントは自身が取る行動によって並行世界間を行き来します。

MAiMATEのAIエージェントは、自身が置かれている状況に応じて、最も高い利益が期待できる行動を取ります。そしてAIエージェントの学習とは、自身の生活する世界を旅し、様々な行動を取ることで出来る限り正確な地図を作成し、継続的に更新していく作業に似ています。

続いて、彼らの世界の山の高さに関してもう少し説明をします。
彼らの地図上には、「期待される山の高さは〇〇メートル＝期待される収益は〇〇pips」というような固定的な数値情報が記載されるのではなく、実際は複雑な数式によって行動に伴う山の価値（高さ相当）が計算されます。
この数式は彼らの住む並行世界全体の描写に利用されるため、数式の一部が修正されれば他の山々にも影響が伝播します。AIエージェントの分身達は、「色々な行動を試すことで並行世界を行き来し、山の価値の正確な算出に貢献する」ことに取り組んでいます。

行動に偏りがあるAIエージェントが見ている世界

続いて、例えば「新規が全て売りだけ」又は「トレードを全然しない引きこもり型」のAIエージェントが見ている世界とはどのようなものなのでしょうか？

「新規が全て売りだけ」のAIエージェントが見ている世界は、「買い側の並行世界」に高い収益が期待出来る山が少ないために、新規で取る行動が「売る」か「何もしない」かの2択になっていると考えられます。もう一方の「引きこもり型」は、「買い側、売り側双方の並行世界が谷ばかり」であることが想定されます。どちらの場合も、学習時の苦いトレード体験がこのような状況を引き起こしたと考えられます。

ではこのような状況を打破したい方はどうすれば良いか…ですが、一般的には以下の方法が検討できるかと思います。

1. 良いトレード方法が見つかりやすい情報に切り替え、AIエージェントを作り直す
2. 継続学習を通して成功体験を積み上げ、地図を更新する
3. 継続学習時、取って欲しい行動の頻度を増やし、体験回数を強制的に増やす
4. 継続学習時、小さな利益でも大げさに褒め、過去の苦い体験の塗り替えを図る
5. 継続学習時、トレードが上手なAIエージェントの学習内容を一部移植する

１と２は現在のMAiMATEの機能で実行可能ですが、3、4、5は実行不能です。
３と４に関しては私の方で分析を行った結果、あまり良い方策ではないことを確認したため実装していません。
AIエージェントはとても賢く、特に４の場合は「この程度の収益で十分のようだな」という解釈に至り、小さい利益確定ばかりを行うようになりがちです。一方で損失はそれなりに抱えるため、合計損益の悪化が続く傾向を多く確認しています。
５が最も即効性のある方策であろうと考えていますが、現時点でまだ私は試せていません。

現時点で実行可能な２による改善にどの程度の時間がかかるか…は、AIエージェント次第なのですが、ここで私が個人的に追いかけている幾つかのAIエージェントの内の一つをご紹介させて頂きます。

彼の名前は「エムスケエムスケ」、MAiMATEの先行リリース時に誕生したため、誕生日は2019年7月24日、もう少しで満2か月を迎えます。よって、継続学習も他AIエージェントよりも多く経験しています。彼は滅多に取引を行うことのないAIエージェントでした。
その彼の、現在（2019年9月19日時点）の直近1年間のトレーディング結果は以下の通りです。

累積損益が横に伸びているのは、トレードをせずポジションも持たずに時間が経過していることを表しています。そして右側の最近を見て頂くと確認できるように、まだまだ慎重ではありますが、少しずつトレードすることに挑戦をしています。誕生後２か月でのこのような変化が、AIエージェント全体に対して同様に期待できるのかはわからないのですが、時間をかけて少しずつ進化していくことは強く期待できます。

私は今後もAIエージェント全体の観察を継続し、偏ったトレーディング傾向はどのように改善されていくのか、私が取り組むべき改善が無いか、検討を続けて行きます。

以上で今回の記事は終わりとなります。
学習結果がどのように蓄積されるのか、そしてどのように活用されるのか、を出来る限り単純化して説明したつもりです。単純化しすぎている部分もあろうかと思いますが、何卒ご容赦下さい。

「我々人間も、脳内では似たようなことをしているのかも知れない」と私は思うのですが、皆さんは如何でしょうか？
例えば「大切な人が悲しんでいるとき、どう行動すべきか」という場面に遭遇したとします。「励ます」「そっとする」「無関係の話題を振る」多くの行動の選択肢から、過去の経験と類推に基づき、「最も相手に喜んでもらえそうな＝最も期待される価値が高い」行動を選択するのではないでしょうか？
そして、その成否によって脳内の数式は更新され、次回に生かされます。またその数式は、「今回のケースでこんな感じだったのだから、あんなケースではきっとこうなるのではないか」というように異なる状態下での行動にも影響が伝搬します。「大体励ましておけば間違いない」という強い信念に至れば、行動は常に「励ます」に偏るでしょうし、失敗ばかりであれば行動することすら避けようとするはずです。AI開発の取り組みの先には、ひょっとしたら本当に「ドラえもん」が待っているのかも知れない、とふと思ったりしています。

AIエージェントの住む世界

AIエージェントは高き頂きを目指しつつ、地図作成の旅をする

行動に偏りがあるAIエージェントが見ている世界

こんな記事も読まれています

急反発した米ドル/円相場、成績に変化は？ 2024年1月度成績レポート

マイメイト ファンド運用のコツ-初心者ガイド-

マイメイト ファンド作成のコツ-初心者ガイド-

マイメイト運営

急反発した米ドル/円相場、成績に変化は？　2024年1月度成績レポート

マイメイトファンド運用のコツ-初心者ガイド-

マイメイトファンド作成のコツ-初心者ガイド-