機械学習における次元の呪い（Curse of dimensionality）とは何？対策方法まで徹底解説

皆さんは次元の呪いをご存じですか？次元の呪いは機械学習を行う中で避けては通れないものであり、高い性能を目指そうとすればするほど、モデルの精度が落ちる場合があります。それはなぜなのか、気になる方も多いはずです。

本記事では次元の呪いにスポットを当て、次元の呪いの種類や対策方法などをごしょうかいしていきます。

機械学習における次元の呪いとは何？

次元の呪いとはどういうものなのか、基本的な情報をご紹介します。

次元の呪いの概要

次元の呪いは、データの次元が大きくなることで計算量がどんどん大きくなってしまう現象を指します。本来、次元とは空間を意味しており、ドラえもんの四次元ポケットのようなイメージを持つ人もいるはずです。この場合の次元はデータの特徴量を意味しており、特徴量が多い時に次元が多いと言います。

例えば、赤と青、白から好きな色を2色選ぶ場合、3色だけなので選ぶのはそこまで難しくありません。しかし、アンミカさんの名言である「白は200色ある」という言葉からもわかる通り、赤や青、白には細かな色がたくさん存在します。白でも細かく違う色を選んでいったり、比較をしたりするとなると相当大変です。

あくまでも特徴量をわかりやすく例えたケースですが、特徴量は変数の数によって組み合わせが膨大となり、結果的に指数関数的な増え方になってしまいます。結果的に効率が落ちることにもつながり、納得のいく結果につながらないケースも考えられます。

次元の呪いの種類

ここからは次元の呪いの種類についてご紹介します。

データの希薄性

データの希薄性は、Data sparsityと呼ばれており、属性が多ければ多いほど、その属性たちを網羅していくのは難しいというタイプです。属性を多くすればするほどそれだけ正確なデータになっていき、機械学習の効果を高める印象を受ける人も多いはずです。

先ほどの色の組み合わせのように、属性が増えればそれだけパターンは増えて、データも多くを要します。かといって、データ集めを適当にすれば当然いい効果は出ません。こうした問題がデータの希薄性となって現れます。

距離集中

距離集中は英語でDistance Concentrationと言います。距離集中はクラスタリングにおいて、それぞれのデータの距離が非常に近いために、本来は同じ種類のデータではないのに、あたかも同じような形で判別されるという問題です。

次元が大きくなると、その距離は一定の数値で同じになると言われています。高次元になればなるほどクラスタリングが使えなくなる可能性が出てくるのです。

次元の呪いはなぜ問題なのか

次元の呪いはなぜ問題とされるのか、その理由をご紹介します。

次元が増えると多くのデータが必要になる

次元が増えることは特徴量が増えることを意味します。判別するのに必要な材料などが多ければ多いほど、一般化していく際に欠かせないデータの量がその分増えます。その増え方は指数関数的に増えるので、いわば急カーブを描くような形で必要とされるデータ量が増えていきます。

たくさんの次元になればそれだけ大量のデータが必要となります。データを確保するのに手間暇がかかりコストもかかることから、次元の呪いになることはできる限り避けなければならないのです。

訓練時間が増える

手間暇がかかるのが次元の呪いにおけるデメリット、問題点です。訓練時間が増える要因はやはりデータ量の多さです。例えばディープラーニングの場合、大量のデータを使って学習するとなると1日では終わらず、場合によっては数日、数週間、数か月とかかってしまうことがあります。

いかに素早く学習が行えるかが、研究開発の分野において重要視される点です。仮説を立てて結果が出るのに数か月かかるか、1日で済むかは大きな違いであり、試行錯誤をする難易度もだいぶ異なります。次元の呪いによって大量のデータを使うことが余儀なくされ、相当な時間がかかるとなれば、できる限り避けなければならないと考えるのが普通です。

適切な評価ができなくなる

次元の呪いによって特徴量がたくさんある状態になると、類似度をチェックする際に適切な評価がしにくくなってしまいます。例えば、自然言語処理の世界では「コサイン類似度」と呼ばれるものがあります。

コサイン類似度は文書が似ているかどうか、その類似度を評価する際に文書のベクトル化を行い、ベクトルで評価します。この時に用いられるのがコサイン類似度です。ベクトルの角度から類似度を評価していきます。ところが、次元の呪いによってベクトルが直角に交差する「直交」になりやすく、類似度を上手く評価できなくなるのです。

そのため、高次元になればなるほど、コサイン類似度を選んでも意味がない結果になる可能性が高まり、計算処理の時間だけがいたずらにかかってしまいます。それが次元の呪いの問題点です。

次元の呪いの対策方法

ここからは次元の呪いの対策方法についてご紹介していきます。

特徴量を削る

次元の呪いがなぜ起きるかといえば、それだけ特徴量が多いからであり、特徴量を減らすことで必要とするデータを抑えることができます。特徴量を削る方法は2つあります。1つは特徴の選択をすること、もう1つは次元の削減を行うことです。

1つ目の「特徴の選択」は特徴量の中から適したものを選ぶ、もしくは除外しても問題なさそうなものを削っていくという形で特徴量の調整を行います。もう1つの「次元の削減」は、特徴量を維持しながらも次元を下げていくというやり方です。データの要約という形で次元を下げることができ、結果的に次元の呪いを避けることが可能です。

しかし、特徴量を削ることそのものにもデメリットがあります。そもそも高次元になるのはたくさんのデータに連動するからで、データを残しつつ次元を下げるのは精度に影響を及ぼし、誤判定につながる恐れを秘めています。こうしたことから、特徴量を削りつつデメリットを防ぐ研究も進められています。

次元の呪いを回避する研究

次元の呪いを避けようとする動きは年々強まっています。ここでは次元の呪いを回避する研究についてご紹介します。

HOPE

次元の呪いを克服する技術として2018年に登場したのがHOPEです。HOPEは関西大学の教授が開発した最適化ソフトウェアで、複雑な組み合わせに関する問題を正確に解けるのが特徴的です。

HOPEを活用して解決されたのがゲノム科学の問題で、病気との関係性が指摘されている遺伝子を見つけ出すなど結果を残しています。ゲノム科学で用いられたものをディープラーニングに応用することができ、次元の呪いの克服につながったのです。

ゲノム科学もまたゲノムの数があまりに多いために次元の呪いが起きている状態であり、これを克服するべくHOPEの開発を行い、糸口をつかんだ状態まで来ています。

DeepTwin

次元の呪いを避ける技術として開発されたのがDeepTwinです。DeepTwinは富士通研究所が開発した技術で、世界初とされています。何が世界初かと言えば、高次元データの特徴を正しく獲得できる点についてです。

教師あり学習を行う中で膨大な教師データが必要になることがあります。しかし、教師データを確保するには時間も工数もかかってしまいます。ディープラーニングを活用して次元の削減を行うと特徴量を正確につかみきれず、間違った判定をAIが行う問題がありました。この点を克服したのがDeepTwinです。

DeepTwinでは映像圧縮の技術とディープラーニングを組み合わせることで、次元の削減を行った後のデータ分布をディープラーニングで最適化させ、高次元データの特徴を正しくつかむことに成功しました。

このDeepTwinの技術を使って、2023年には富士通と理化学研究所が創薬技術の開発を実現させています。次元の呪いを避ける技術はより高度な開発につながっているのです。

次元の呪いを避けるための機械学習のデータ量とは

次元の呪いを避けるための技術をご紹介しましたが、当初から次元の呪いを避けるのに適した機械学習のデータ量を理解し、そのデータ量を意識するのが理想的です。実は「機械学習に適したデータ量の法則」が存在します。

バーニーおじさんのルール

バーニーおじさんのルールはニューラルネットワークを使った機械学習において、パラメーターの数のおよそ10倍の学習済みデータが必要になるというものです。実は経験則として語られているもので、実際には科学的かつ数学的な証明がされているわけではありません。

バーニーおじさんはもちろん実在する人物で、スタンフォード大学の教授であるBernard Widrow氏が講演において提唱したことです。このルールは日本ディープラーニング協会のG検定で登場する言葉として有名ですが、あまり一般的とは言えません。

まとめ

次元の呪いは機械学習を行うにあたって避けては通れない課題です。しかし、この次元の呪いに関して、データ量を確保しながらも回避する技術が日本で生まれるなど、次元の呪いの分野に関しては日本がリードしていると言っても過言ではありません。

ゲノム科学で用いられている最適化ソフトウェアを始め、次元の呪いに苦しむ人たちにとっては救世主と言えます。何より活発な試行錯誤のために、計算がすぐにでも終わるのが理想的です。答えが出るのに数か月もかかれば、慎重になってしまうのは無理もありません。

これが数日で終わるものであれば、多くの試行錯誤を重ねてよりよいシステムにつなげられることでしょう。次元の呪いに立ち向かう技術が日本でどんどん進化を遂げていくことはとても大事なことなのです。

さらに、今注目を集める生成AIリスキリングの第一歩を。生成AIパスポートとは？

生成AIパスポートは、一般社団法人生成AI活用普及協会（GUGA）が提供する、AI初心者のために誕生した、生成AIリスクを予防する資格試験です。AIを活用したコンテンツ生成の具体的な方法や事例に加え、企業のコンプライアンスに関わる個人情報保護、著作権侵害、商用利用可否といった注意点などを学ぶことができます。

⽣成AIの台頭により、AIはエンジニアやデータサイエンティストといった技術職の方々だけではなく誰もがAIを使えるようになりました。今、私たちがインターネットを当たり前に活用していることと同様に、誰もが生成AIを当たり前に活用する未来が訪れるでしょう。

そのような社会では、採用や取引の場面で、生成AIを安全に活用できる企業・人材であることが選ばれる前提条件になり「生成AIレベルの証明」が求められることが予測できます。生成AIパスポート試験に合格すると、合格証書が発行されるため、自身が生成AIを安全に活用するためのリテラシーを有する人材であることを、客観的な評価として可視化することが可能です。

ぜひあなたも生成AIレベルを証明し「生成AI人材」に仲間入りしましょう！

詳細はこちら