AI予報の教師データ
先ほど、天気図を教師データにすると書きましたが、実際にこれまでのAI予報の学習で教師データとして使われているのは、再解析データとよばれる膨大なデータです。この再解析データというのは、物理的な数値予報モデルを使って作られています。
日々の数値予報のためには観測データから、データ同化という技術を使って「初期値」を作ります。これは、「解析値」ともよばれています。気象庁などにはその解析値が何年分もたまっていて、いろいろな分析に使うのにちょうどいいのですが、解析技術が日進月歩でよくなってきているので、解析値の品質が時代とともに少しずつ変わってきています。
気候の分析などにこのようなデータを利用すると、ある地域の気温が数十年にわたって次第に高くなっているというような変化が見いだされても、それが気候の変化によるものなのか、データの品質が変わったことによるものなのかわかりません。そこで、最新の技術で過去の長期間にわたる解析をやり直した均質の解析データが作られるようになりました。これが再解析データとよばれるものです。
ECMWFは1940年からの再解析を行っていますし、日本の気象庁も1947年からの再解析データを作って研究やビジネスのために公開しています。これらは全世界を対象としたデータです。長期間の品質のそろったデータなので、地球温暖化などの研究や数値予報の精度向上に向けた研究などに使われています。さらに日本域だけを詳細に解析する再解析も、大学などを中心に取り組まれています。
これがAIの学習のための教師データとしても使われるようになってきたというわけです。つまり、今のAI予報には、物理的な数値予報モデルを使って作られたデータが必要だということです。AI予報がうまくいっているからといって、物理的な数値予報モデルが、すぐに不要になるわけではありません。