M-Theory_(learning_framework)
は機械学習に関するものです。物理学用語については、
M 理論を参照して
機械学習とコンピューター ビジョンでは、M 理論は、視覚野の腹側ストリームのフィードフォワード処理に着想を得た学習フレームワークであり、元々は視覚シーン内のオブジェクトの認識と分類のために開発されました。M 理論は、後に音声認識などの他の分野にも適用されました。特定の画像認識タスクでは、M 理論の特定のインスタンス化である HMAX に基づくアルゴリズムが、人間レベルのパフォーマンスを達成しました。
M 理論の核となる原理は、画像のさまざまな変換 (平行移動、スケール、2D および 3D 回転など) の下で不変な表現を抽出することです。不変表現を使用する他のアプローチとは対照的に、M 理論ではアルゴリズムにハードコーディングされていませんが、学習されます。M理論はまた、圧縮センシングといくつかの原則を共有しています。この理論は、視覚野と同様に、多層化された階層的な学習アーキテクチャを提案しています。
コンテンツ
1 直感
1.1 不変表現 1.2 テンプレート 1.3 テンプレートと不変表現の組み合わせ
2 理論的側面
2.1 軌道から分布対策へ 2.2 変換の非コンパクト グループ 2.3 非グループ変換 2.4 階層アーキテクチャ
3 生物学との関係
4 アプリケーション
4.1 コンピュータビジョンへの応用 4.2 音声認識への応用
5 参考文献
直感
不変表現
視覚認識タスクにおける大きな課題は、同じオブジェクトがさまざまな条件で見えることです。さまざまな距離、さまざまな視点、さまざまな照明下、部分的に遮られた場所などから見ることができます。さらに、顔などの特定のクラスのオブジェクトでは、顔の表情の変更など、非常に複雑な特定の変換が関連する場合が画像の認識を学習するには、これらのバリエーションを除外することが非常に有益です。これにより、分類問題がはるかに単純になり、その結果、モデルのサンプルの複雑さが大幅に削減されます。
簡単な計算実験でこの考えを説明します。分類器の 2 つのインスタンスは、飛行機の画像と車の画像を区別するようにトレーニングされました。最初のインスタンスのトレーニングとテストでは、任意の視点を持つ画像が使用されました。別のインスタンスは、特定の視点から見た画像のみを受け取りました。これは、画像の不変表現についてシステムをトレーニングおよびテストすることと同等でした。2 番目の分類器は、各カテゴリから 1 つの例を受け取った後でも非常にうまく機能したことがわかりますが、最初の分類器のパフォーマンスは、20 の例を見た後でもランダムな推測に近かったことがわかります。
不変表現は、ネオコグニトロンなどのいくつかの学習アーキテクチャに組み込まれています。ただし、これらのアーキテクチャのほとんどは、カスタム設計された機能またはアーキテクチャ自体のプロパティを通じて不変性を提供していました。平行移動などのある種の変換を考慮することは役に立ちますが、3D 回転や顔の表情の変更など、他の種類の変換に対応することは非常に困難です。M 理論は、そのような変換を学習する方法のフレームワークを提供します。より高い柔軟性に加えて、この理論は、人間の脳がどのように同様の能力を持っているかも示唆しています.
M 理論のもう 1 つの核となるアイデアは、圧縮センシングの分野からのアイデアに精神的に近いものです。Johnson-Lindenstrauss lemmaからの含意は、ランダム射影を使用することにより、画像間の距離が同じである低次元の特徴空間に特定の数の画像を埋め込むことができることを示しています。この結果は、観察された画像と、テンプレートと呼ばれるメモリに保存された他の画像との間の内積を、その画像を他の画像と区別するのに役立つ特徴として使用できることを示唆しています。テンプレートは画像に関連している必要はなく、ランダムに選択できます。と不変表現の組み合わせ
前のセクションで概説した 2 つのアイデアをまとめて、不変表現を学習するためのフレームワークを構築できます。重要な観察は、画像間の内積がどのようになるかです I { I}
とテンプレート t { t}
画像が変換されたときに動作します (平行移動、回転、スケールなどの変換によって)。もし変身したら g { g}
変換のユニタリ グループのメンバーである場合、次が成り立ちます。⟨ g I t ⟩ = ⟨ I g
− ⟩ ( 1 ) { langle gI,trangle =langle I,g^{-1}trangle qquad (1)}
言い換えると、変換された画像とテンプレートの内積は、元の画像と逆変換されたテンプレートの内積に等しくなります。たとえば、90 度回転した画像の場合、逆変換されたテンプレートは -90 度回転します。
画像の内積の集合を考えてみましょう I { I}
のすべての可能な変換に:{ ⟨ I g 」 t ⟩ ∣ g 」 {0 {1 {2
{ lbrace langle I,g^{prime }trangle mid g^{prime }in Grbrace }
. 変換を適用すると g { g}
私
{ I}
、セットは次のようになります{ ⟨ g I g 」 t ⟩ ∣ g {0 {1 {2 {3
{ lbrace langle gI,g^{prime}trangle mid g^{prime}in Grbrace }
. しかし、プロパティ (1) により、これは次のようになります。{ ⟨ I g −
1g 」 t ⟩ ∣ g 」 ε G g0
{ lbrace langle I,g^{-1}g^{prime }trangle mid g^{prime }in Grbrace }
. セット{ g −
1g 」 ∣ g 」 ε G }
{ lbrace g^{-1}g^{prime}mid g^{prime}in Grbrace}
のすべての要素のセットに等しい G { G}
. これを確認するには、すべてのg −
1g 」
{ g^{-1}g^{prime }}
にある G { G}
groupsのクロージャー プロパティにより、およびすべての g 」」
{ g^{prime prime }}
G にはそのプロトタイプが存在するg 」
{ g^{prime }}
そのような g 」」= g −
1g 」
{ g^{prime prime}=g^{-1}g^{prime}}
(つまり、g 」 = g g 」」 { g^{prime}=gg^{primeprime}}
)。したがって、{ ⟨ I g −
1g 」 t ⟩ ∣ g 」 ε G g0 g1 g2 g3 I g 」」t ⟩ ∣ g
」」ε G }
{ lbrace langle I,g^{-1}g^{prime}trangle mid g^{prime}in Grbrace =lbrace langle I,g^{prime プライム }trangle mid g^{prime prime }in Grbrace }
. 画像に変換が適用されたにもかかわらず、内積のセットは同じままであることがわかります。このセット自体が、(非常に面倒な) 画像の不変表現として機能する場合がそこから、より実用的な表現を導き出すことができます。
導入セクションでは、M 理論によって不変表現を学習できると主張されました。これは、オブジェクトの一連の変換にシステムをさらすことによって、テンプレートとその変換されたバージョンが視覚的な経験から学習できるためです。同様の視覚的経験が人間の人生の早い段階で発生することはもっともらしいです。たとえば、乳児が手でおもちゃをいじるときです。テンプレートは、システムが後で分類しようとする画像とはまったく無関係である可能性があるため、これらの視覚的経験の記憶は、後の人生でさまざまな種類のオブジェクトを認識するための基礎として役立つ可能性がただし、後で示すように、ある種の変換には特定のテンプレートが必要です。
理論的側面
軌道から分布対策へ
前のセクションで説明したアイデアを実装するには、計算効率の高い画像の不変表現を導き出す方法を知る必要が各画像のこのような一意の表現は、一連の 1 次元確率分布 (画像と教師なし学習中に格納された一連のテンプレートとの間の内積の経験的分布) によって現れるため、特徴付けることができます。これらの確率分布は、以下に示すように、ヒストグラムまたはその一連の統計モーメントのいずれかによって記述できます。
軌道〇 I
{ O_{I}}
画像のセットですg I
{ gI}
単一の画像から生成された I { I}
グループの行動で
G ∀g ε G
{ G,forall gin G}
. つまり、オブジェクトとその変換のイメージは軌道に対応します。〇 I
{ O_{I}}
. 2 つの軌道に共通点がある場合、それらはどこでも同じです。つまり、軌道は不変で一意の画像表現です。したがって、2 つの画像が同じ軌道に属している場合、これらの画像は同等であると呼ばれます。I ~ I 」
{ Isim I^{prime }}
もしも∃ g ε G
{ exists gin G}
そのようなI 」 = g I
{ I^{prime}=gI}
. 逆に、一方の軌道の画像が他方の画像と一致しない場合、2 つの軌道は異なります。
当然の疑問が生じます: どうすれば 2 つの軌道を比較できるでしょうか? 考えられるアプローチはいくつかそのうちの 1 つは、直感的に 2 つの経験的軌道がそれらの点の順序に関係なく同じであるという事実を採用しています。したがって、確率分布を考えることができますP I
{ P_{I}}
画像に対するグループの行動によって引き起こされる I { I}
( g I { gI}
確率変数の実現として見ることができます)。
この確率分布P I
{ P_{I}}
~によってほぼ一意に特徴付けることができる K { K}
一次元確率分布P ⟨ t
k ⟩ { P_{langle I,t^{k}rangle }}
投影の (1 次元) 結果によって誘導される⟨ I t k ⟩ { langle I,t^{k}rangle }
、 どこt k k =
1 … K
{ t^{k},k=1,ldots ,K}
一連のテンプレート (ランダムに選択された画像) です (Cramer–Wold の定理と測定値の集中に基づく)。
検討 n { n}
画像Xn X
{ X_{n}in X}
. させてK ≥ 2 c 2 グ
n δ { Kgeq {frac {2}{cvarepsilon ^{2}}}log {frac {n}{delta }}}
、 どこ c { c}
は普遍定数です。それで
| | d ( PI P I 」 ) − d K( PI P I 」 )
| | ≤ ε { |d(P_{I},P_{I}^{prime })-dK(P_{I},P_{I}^{prime })|leq varepsilon ,}
確率で1 − δ 2
{ 1-delta ^{2}}
、 すべてのために
I 私 」 { I,I^{prime }}
ε { in}
X n { X_{n}}
. この結果は (非公式に)、画像のほぼ不変で一意の表現であると述べています。 I { I}
の見積もりから得ることができます K { K}
1 次元の確率分布P ⟨ t
k ⟩ { P_{langle I,t^{k}rangle }}
為にk =
1 … K
{ k=1,ldots ,K}
. 数字 K { K}
識別するために必要な投影の n { n}
によって誘導される軌道 n { n}
画像、精度まで ε { varepsilon }
(そして自信を持って1 − δ 2
{ 1-delta ^{2}}
) はK ≥ 2 c 2 グ
n δ { Kgeq {frac {2}{cvarepsilon ^{2}}}log {frac {n}{delta }}}
、 どこ c { c}
は普遍定数です。
画像を分類するには、次の「レシピ」を使用できます。と呼ばれる一連の画像/オブジェクトを記憶します。
各テンプレートの観察された変換を記憶します。
画像との変換の内積を計算します。
画像の署名と呼ばれる、結果の値のヒストグラムを計算します。
得られたヒストグラムをメモリに保存されているシグネチャと比較します。
このような 1 次元確率密度関数 (PDF) の推定P ⟨ t
k ⟩ { P_{langle I,t^{k}rangle }}
ヒストグラムの観点から次のように書くことができますμ n k I ) = 1 /
| | G | |
∑I = 1
| | G | |
η n ( ⟨I g I t k
⟩ ) { mu _{n}^{k}(I)=1/left|Gright|sum _{i=1}^{left|Gright|}eta _{n} (langle I,g_{i}t^{k}rangle )}
、 どこη n n =
1 … N
{ eta _{n},n=1,ldots ,N}
は一連の非線形関数です。これらの 1 次元確率分布は、N ビン ヒストグラムまたは一連の統計モーメントで特徴付けることができます。たとえば、HMAX は max 操作でプーリングが行われるアーキテクチャを表します。
変換の非コンパクト グループ
画像分類の「レシピ」では、変換のグループは有限数の変換で近似されます。このような近似は、グループがコンパクトな場合にのみ可能です。
画像のすべての平行移動とすべてのスケーリングなどのグループは、任意の大きな変換を許可するため、コンパクトではありません。ただし、それらは局所的にコンパクトです。局所的にコンパクトなグループの場合、特定の範囲の変換内で不変性が達成可能です。
と仮定するG 0
{ G_{0}}
からの変換のサブセットです。 G { G}
変換されたパターンがメモリに存在するもの。画像の場合 I { I}
とテンプレートt k
{ t_{k}}
、 と仮定する⟨ I g − 1t k ⟩
{ langle I,g^{-1}t_{k}rangle }
の一部のサブセットを除くすべての場所でゼロに等しいG 0
{ G_{0}}
. このサブセットはサポートと呼ばれます⟨ I g − 1t k ⟩
{ langle I,g^{-1}t_{k}rangle }
として表されます
補給( ⟨I g − 1t k ⟩ ) { operatorname {supp} (langle I,g^{-1}t_{k}rangle )}
. 変換の場合は証明できますg 」
{ g^{prime }}
、サポート セットも含まれますg 」 G 0
{ g^{prime}G_{0}}
、次に署名 I { I}
に関して不変であるg 」
{ g^{prime }}
. この定理は、不変性が保証される変換の範囲を決定します。
小さい方が大きいことがわかります
補給( ⟨I g − 1t k ⟩ ) { operatorname {supp} (langle I,g^{-1}t_{k}rangle )}
、不変性が保証される変換の範囲が大きくなります。これは、局所的にのみコンパクトなグループの場合、すべてのテンプレートが同等に機能するとは限らないことを意味します。好ましいテンプレートは、適度に小さい
補給( ⟨g I t k
⟩ ) { operatorname {supp} (langle gI,t_{k}rangle )}
一般的なイメージの場合。このプロパティはローカリゼーションと呼ばれます。テンプレートは、小さな範囲の変換内の画像にのみ敏感です。最小化しますが、
補給( ⟨g I t k
⟩ ) { operatorname {supp} (langle gI,t_{k}rangle )}
システムが機能するために絶対に必要なわけではありませんが、不変性の近似が改善されます。翻訳とスケーリングのために同時にローカリゼーションを要求すると、非常に特殊な種類のテンプレートであるGabor functionsが生成されます。
非コンパクト群のカスタム テンプレートの望ましさは、不変表現の学習の原則と矛盾します。ただし、定期的に発生する特定の種類の画像変換の場合、テンプレートは進化的適応の結果である可能性が神経生物学的データは、視覚野の最初の層にガボールのような調整があることを示唆しています。平行移動とスケールに対するガボール テンプレートの最適性は、この現象の可能な説明です。
非グループ変換
画像の興味深い変換の多くは、グループを形成しません。たとえば、対応する 3D オブジェクトの 3D 回転に関連付けられたイメージの変換は、逆変換を定義することができないため、グループを形成しません (2 つのオブジェクトがある角度からは同じように見えても、別の角度からは異なる場合があります)。ただし、テンプレートのローカリゼーション条件が保持され、変換がローカルに線形化できる場合は、非グループ変換でも近似不変性を達成できます。
前のセクションで述べたように、翻訳とスケーリングの特定のケースでは、一般的な Gabor テンプレートを使用してローカリゼーション条件を満たすことができます。ただし、一般的なケース (非グループ) 変換の場合、特定のクラスのオブジェクトに対してのみローカリゼーション条件を満たすことができます。より具体的には、条件を満たすためには、テンプレートが認識したいオブジェクトに似ている必要がたとえば、3D 回転面を認識するシステムを構築したい場合、他の 3D 回転面をテンプレートとして使用する必要がこれは、顔認識を担うような脳内の特殊なモジュールの存在を説明するかもしれません。カスタム テンプレートを使用しても、ローカリゼーションには画像とテンプレートのノイズのようなエンコードが必要です。非グループ変換が階層認識アーキテクチャの最初のレイヤー以外のレイヤーで処理されれば、当然実現できます。
階層アーキテクチャ
前のセクションでは、階層的な画像認識アーキテクチャの動機の 1 つを示唆しています。ただし、他の利点も
第 1 に、階層アーキテクチャは、相対位置が大きく異なる可能性がある多くの部分から構成される多くのオブジェクトを含む複雑なビジュアル シーンを「解析」するという目標を最もよく達成します。この場合、システムのさまざまな要素がさまざまなオブジェクトやパーツに反応する必要が階層アーキテクチャでは、埋め込み階層のさまざまなレベルにあるパーツの表現を、階層のさまざまなレイヤーに格納できます。
第二に、オブジェクトの部分の不変表現を持つ階層アーキテクチャは、複雑な構成概念の学習を容易にする可能性がこの促進は、他の概念の学習の過程で以前に構築されたパーツの学習済み表現を再利用することによって発生する可能性がその結果、構成概念を学習するサンプルの複雑さが大幅に軽減される可能性が
最後に、階層型アーキテクチャは混乱に対する耐性が優れています。対象物が不均一な背景の前にある場合、クラッターの問題が発生します。これは、視覚タスクの注意散漫として機能します。階層アーキテクチャは、背景の一部を含まず、背景の変化の影響を受けない、ターゲット オブジェクトの一部の署名を提供します。
階層アーキテクチャでは、1 つのレイヤーが、階層全体で処理されるすべての変換に対して不変であるとは限りません。前のセクションで説明した非グループ変換の場合のように、一部の変換はそのレイヤーを介して上位レイヤーに渡される場合が他の変換の場合、レイヤーの要素は、小さな範囲の変換内でのみ不変表現を生成する場合が例えば、階層の下位層の要素は視野が狭く、狭い範囲の翻訳しか処理できません。このような変換の場合、層は不変ではなく共変の署名を提供する必要が共分散の性質は、次のように記述できます。
距離( ⟨μ l g I
) μl t ) ⟩ ) =
距離( ⟨μ l I
) μl g
− ) ⟩ )
{ operatorname {distr} (langle mu _{l}(gI),mu _{l}(t)rangle )=operatorname {distr} (langle mu _{l}(I ),mu _{l}(g^{-1}t)rangle )}
、 どこ l { l}
層であり、μ l I )
{ mu _{l}(I)}
そのレイヤー上の画像の署名であり、
距離
{ operatorname {distr} }
「すべての式の値の分布」を表しますg ε G
{ gin G}
“”。
生物学との関係
M 理論は、視覚野の腹側の流れの量的理論に基づいています。 物体認識において視覚野がどのように機能するかを理解することは、依然として神経科学にとって困難な課題です。人間と霊長類は、オブジェクトを認識するために通常は大量のデータを必要とする最先端のマシン ビジョン システムとは異なり、いくつかの例を見ただけでオブジェクトを記憶して認識することができます。コンピューター ビジョンで視覚神経科学を使用する前は、ステレオ アルゴリズムを導き出すための初期のビジョン ( など) と、DoG (ガウス微分) フィルターの使用と、最近ではガボール フィルターの使用を正当化することに限定されていました。 より複雑な生物学的にもっともらしい特徴には、真の注意が向けられていない。主流のコンピューター ビジョンは、常に人間の視覚に触発され、挑戦されてきましたが、V1 と V2 の単純なセルでの処理の最初の段階を超えて進歩したことはないようです。神経科学に着想を得たシステムのいくつかは、さまざまな程度で、少なくともいくつかの自然画像でテストされていますが、皮質における物体認識の神経生物学的モデルは、実世界の画像データベースを扱うようにはまだ拡張されていません.
M 理論学習フレームワークは、腹側ストリームの主な計算機能に関する新しい仮説を採用しています。これは、視覚体験中に学習した変換に対して不変であるシグネチャの観点からの新しいオブジェクト/画像の表現です。これにより、ラベル付けされた非常に少数の例 (制限内で 1 つだけ) からの認識が可能になります。
神経科学では、ニューロンが計算する自然汎関数は、「イメージ パッチ」と別のイメージ パッチ (テンプレートと呼ばれる) との間の高次元ドット積であり、シナプスの重み (ニューロンあたりのシナプス) の観点から格納されることを示唆しています。ニューロンの標準的な計算モデルは、内積としきい値に基づいています。視覚野のもう 1 つの重要な特徴は、単純な細胞と複雑な細胞で構成されていることです。このアイデアは、もともと Hubel と Wiesel によって提案されました。 M理論はこの考えを採用しています。単純なセルは、画像の内積とテンプレートの変換を計算します⟨ I g I t k ⟩ { langle I,g_{i}t^{k}rangle }
為にI =
1 … | | G | |
{ i=1,ldots ,|G|}
( | | G | |
{ |G|}
は単純なセルの数です)。複雑なセルは、経験的なヒストグラムまたはその統計的瞬間をプールして計算する役割を果たします。ヒストグラムを構築するための次の式は、ニューロンによって計算できます。 1 | | G | | ∑ I= 1
| | G | | σ ( ⟨I g I t k ⟩ + n △
) { {frac {1}{|G|}}sum _{i=1}^{|G|}sigma (langle I,g_{i}t^{k}rangle +nデルタ )、}