Types_of_artificial_neural_networks
人工ニューラルネットワーク(ANN)には多くの種類が
人工ニューラルネットワークは、生物学的ニューラルネットワークに触発された計算モデルであり、一般的に未知の関数を近似するために使用されます。特に、ニューロンの動作と、入力(目や手の神経終末など)、処理、脳からの出力(光、接触、熱への反応など)の間で伝達される電気信号に触発されています。)。ニューロンが意味的に通信する方法は、進行中の研究の領域です。 ほとんどの人工ニューラルネットワークは、それらのより複雑な生物学的対応物にいくらか類似しているだけですが、それらの意図されたタスク(例えば、分類またはセグメンテーション)で非常に効果的です。
一部の人工ニューラルネットワークは適応システムであり、たとえば、絶えず変化する人口や環境をモデル化するために使用されます。
ニューラルネットワークは、ハードウェア(ニューロンは物理コンポーネントで表される)またはソフトウェアベース(コンピューターモデル)であり、さまざまなトポロジと学習アルゴリズムを使用できます。
コンテンツ
1 フィードフォワード
1.1 データ処理のグループ方式
1.2 オートエンコーダ
1.3 確率論的
1.4 時間遅延
1.5 畳み込み
1.6 ディープスタッキングネットワーク
1.6.1 テンソルディープスタッキングネットワーク
2 規制フィードバック
3 動径基底関数(RBF)
3.1 RBFネットワークのしくみ
3.1.1 動径基底関数
3.1.2 建築
3.1.3 トレーニング
3.2 一般回帰ニューラルネットワーク
3.3 ディープビリーフネットワーク
4 リカレントニューラルネットワーク
4.1 完全に再発
4.1.1 ホップフィールド
4.1.2 ボルツマンマシン
4.1.3 自己組織化マップ
4.1.4 学習ベクトル量子化
4.2 単純な再発
4.3 貯水池コンピューティング
4.3.1 エコー状態
4.4 長期短期記憶
4.5 双方向
4.6 階層
4.7 確率論的
4.8 遺伝的スケール
5 基本単位
5.1 機械委員会
5.2 連想
6 物理的
7 他のタイプ
7.1 瞬時に訓練
7.2 スパイク
7.3 規制フィードバック
7.4 ネオコグニトロン
7.5 複合階層ディープモデル
7.6 深い予測コーディングネットワーク
7.7 多層カーネルマシン
8 動的
8.1 カスケード
8.2 ニューロファジー
8.3 構成パターン生成
9 メモリネットワーク
9.1 ワンショット連想記憶
9.2 階層的時間記憶
9.3 ホログラフィック連想記憶
9.4 LSTM関連の微分可能メモリ構造
9.5 ニューラルチューリングマシン
9.6 セマンティックハッシュ
9.7 ポインターネットワーク
10 ハイブリッド
10.1 エンコーダー-デコーダーネットワーク
11 も参照してください
12 参考文献
フィードフォワード
フィードフォワードニューラルネットワーク
フィードフォワードニューラルネットワークは、最初で最も単純なタイプでした。このネットワークでは、情報は入力レイヤーから非表示レイヤーを経由して、サイクル/ループなしで出力レイヤーに直接移動します。フィードフォワードネットワークは、バイナリMcCulloch–Pittsニューロンなどのさまざまなタイプのユニットで構築できます。最も単純なものはパーセプトロンです。連続ニューロンは、しばしばシグモイド活性化を伴い、バックプロパゲーションのコンテキストで使用されます。
データ処理のグループ方式
データ処理のグループ方式
グループデータ処理方法(GMDH)は、完全に自動化された構造モデルとパラメトリックモデルの最適化を特徴としています。ノードの活性化関数は、加算と乗算を可能にするコルモゴロフ-ガボール多項式です。8層の深層多層パーセプトロンを使用しています。これは、層ごとに成長する教師あり学習ネットワークであり、各層は回帰分析によってトレーニングされます。不要なアイテムは検証セットを使用して検出され、正則化によって削除されます。結果として得られるネットワークのサイズと深さは、タスクによって異なります。
オートエンコーダ
オートエンコーダ
オートエンコーダー、オートアソシエーター、またはディアボロネットワーク :19 は、多層パーセプトロン(MLP)に似ており、入力層、出力層、およびそれらを接続する1つ以上の隠れ層がただし、出力層には入力層と同じ数のユニットがその目的は、(ターゲット値を発行するのではなく)独自の入力を再構築することです。したがって、オートエンコーダは教師なし学習モデルです。オートエンコーダのために使用される教師なし学習の効率的なコーディング、 一般的にのために次元削減及び学習用生成モデルのデータを。
確率論的
確率的ニューラルネットワーク
確率的ニューラルネットワーク(PNN)は、4層のフィードフォワードニューラルネットワークです。レイヤーは、入力、非表示、パターン/合計、および出力です。PNNアルゴリズムでは、各クラスの親確率分布関数(PDF)は、Parzenウィンドウとノンパラメトリック関数によって近似されます。次に、各クラスのPDFを使用して、新しい入力のクラス確率が推定され、ベイズの定理が採用されて、事後確率が最も高いクラスに割り当てられます。これは、ベイジアンネットワークと、カーネルフィッシャー弁別分析と呼ばれる統計アルゴリズムから導出されました。分類とパターン認識に使用されます。
時間遅延
時間遅延ニューラルネットワーク
時間遅延ニューラルネットワーク(TDNN)は、シーケンス位置に依存しない特徴を認識するシーケンシャルデータのフィードフォワードアーキテクチャです。タイムシフトの不変性を実現するために、入力に遅延が追加され、複数のデータポイント(ある時点)が一緒に分析されます。
これは通常、より大きなパターン認識システムの一部を形成します。これは、接続の重みがバックプロパゲーション(教師あり学習)でトレーニングされたパーセプトロンネットワークを使用して実装されています。
畳み込み
畳み込みニューラルネットワーク
畳み込みニューラルネットワーク(CNN、ConvNet、シフト不変または空間不変)は、完全に接続された層(通常のANNの層と一致する)を上に持つ1つ以上の畳み込み層で構成されるディープネットワークのクラスです。 タイドウェイトとプーリングレイヤーを使用します。特に、max-pooling。福島の畳み込みアーキテクチャを介して構造化されることがよくこれらは、最小限の前処理を使用する多層パーセプトロンのバリエーションです。このアーキテクチャにより、CNNは入力データの2D構造を利用できます。
そのユニット接続パターンは、視覚野の組織に触発されています。ユニットは、受容野として知られている空間の制限された領域で刺激に反応します。受容野は部分的に重なり、視野全体を覆っています。ユニット応答は、畳み込み演算によって数学的に近似できます。
CNNは、視覚データやその他の2次元データの処理に適しています。 画像と音声の両方のアプリケーションで、優れた結果を示しています。それらは、標準的なバックプロパゲーションでトレーニングできます。CNNは、他の通常のディープフィードフォワードニューラルネットワークよりもトレーニングが簡単で、推定するパラメーターがはるかに少なくなります。
カプセルニューラルネットワーク(CapsNet)は、カプセルと呼ばれる構造をCNNに追加し、複数のカプセルからの出力を再利用して、(さまざまな摂動に関して)より安定した表現を形成します。
コンピュータビジョンのアプリケーションの例には、DeepDream やロボットナビゲーションが含まれます。それらは、画像およびビデオ認識、レコメンダーシステム、および自然言語処理において幅広い用途が
ディープスタッキングネットワーク
ディープスタッキングネットワーク(DSN)(ディープコンベックスネットワーク)は、単純化されたニューラルネットワークモジュールのブロックの階層に基づいています。2011年にDengとDongによって導入されました。これは、閉形式の解を使用した凸最適化問題として学習を定式化し、スタックされた一般化とのメカニズムの類似性を強調します。各DSNブロックは、ブロック全体の逆伝播なしに、監視ありの方法でそれ自体で簡単にトレーニングできる単純なモジュールです。
各ブロックは、単一の隠れ層を持つ単純化された多層パーセプトロン(MLP)で構成されています。隠れ層hにはロジスティックシグモイド 単位があり、出力層には線形単位がこれらの層間の接続は、重み行列Uで表されます。入力から隠れ層への接続には、重み行列Wがターゲットベクトルtは行列Tの列を形成し、入力データベクトルxは行列Xの列を形成します。非表示ユニットの行列は次のとおりです。 = σ (( W )。
{{ boldsymbol {H}} = sigma({ boldsymbol {W}} ^ {T} { boldsymbol {X}})}
。モジュールは順番にトレーニングされるため、各段階で下位層の重みWがわかります。この関数は、要素ごとのロジスティックシグモイド演算を実行します。各ブロックは同じ最終ラベルクラスyを推定し、その推定値は元の入力Xと連結されて、次のブロックの拡張入力を形成します。したがって、最初のブロックへの入力には元のデータのみが含まれ、ダウンストリームブロックの入力には前のブロックの出力が追加されます。次に、ネットワーク内の他の重みが与えられた場合に上位層の重み行列Uを学習することは、凸最適化問題として定式化できます。分 U= ‖
U− ‖ 2 { min _ {U ^ {T}} f = | { boldsymbol {U}} ^ {T} { boldsymbol {H}}-{ boldsymbol {T}} | _ {F} ^ {2}、}
これは閉じた形の解を持っています。
DBNなどの他のディープアーキテクチャとは異なり、目標は変換された特徴表現を発見することではありません。この種のアーキテクチャの階層構造により、バッチモードの最適化問題として並列学習が簡単になります。純粋に識別可能なタスクでは、DSNは従来のDBNよりも優れています。
テンソルディープスタッキングネットワーク
このアーキテクチャはDSN拡張です。これは、2つの重要な改善を提供します。それは、共分散統計からの高次情報を使用することと、下層の非凸問題を上層の凸部分問題に変換することです。 TDSNは、3次テンソルを介して、同じレイヤー内の2つの異なる隠れユニットのセットのそれぞれから予測への双線形マッピングで共分散統計を使用します。
従来のDNNでは並列化とスケーラビリティは真剣に考慮されていませんが 並列化を可能にするために、DSNとTDSNのすべての学習はバッチモードで行われます。 並列化により、設計をより大きな(より深い)アーキテクチャとデータセットにスケーリングできます。
基本的なアーキテクチャは、分類や回帰などのさまざまなタスクに適しています。
規制フィードバック
規制フィードバックネットワークは、ネットワーク全体のバーストや感覚認識で普遍的に見られる類似性の難しさなど、認識中に見られる脳の現象を説明するためのモデルとして始まりました。認識中に最適化を実行するメカニズムは、それらをアクティブにする同じ入力への抑制フィードバック接続を使用して作成されます。これにより、学習中の要件が軽減され、複雑な認識を実行しながら、学習と更新が容易になります。
動径基底関数(RBF)
動径基底関数ネットワーク
動径基底関数は、中心に対する距離基準を持つ関数です。放射基底関数は、多層パーセプトロンのシグモイド隠れ層伝達特性の代わりとして適用されています。RBFネットワークには2つの層が最初の層では、入力は「非表示」層の各RBFにマッピングされます。選択されるRBFは通常、ガウス分布です。回帰問題では、出力層は平均予測出力を表す隠れ層値の線形結合です。この出力層の値の解釈は、統計の回帰モデルと同じです。分類問題では、出力層は通常、事後確率を表す隠れ層の値の線形結合のシグモイド関数です。どちらの場合も、古典的な統計ではリッジ回帰として知られる収縮手法によってパフォーマンスが向上することがよくこれは、ベイジアンフレームワークの小さなパラメータ値(したがってスムーズな出力関数)に対する以前の信念に対応しています。
RBFネットワークには、多層パーセプトロンと同じように極小値を回避できるという利点がこれは、学習プロセスで調整されるパラメーターが、隠れ層から出力層への線形マッピングのみであるためです。線形性により、エラーサーフェスが二次式になり、簡単に見つけられる最小値が1つになります。回帰問題では、これは1つの行列演算で見つけることができます。分類問題では、シグモイド出力関数によって導入された固定非線形性は、繰り返し再重み付けされた最小二乗法を使用して最も効率的に処理されます。
RBFネットワークには、動径基底関数による入力空間の適切なカバレッジが必要であるという欠点がRBF中心は、入力データの分布を参照して決定されますが、予測タスクは参照されません。その結果、タスクに関係のない入力スペースの領域で表現リソースが浪費される可能性が一般的な解決策は、各データポイントを独自の中心に関連付けることですが、これにより線形システムを拡張して最終層で解くことができ、過剰適合を回避するための収縮手法が必要になります。
各入力データをRBFに関連付けると、サポートベクターマシン(SVM)やガウス過程などのカーネルメソッドが自然に発生します(RBFはカーネル関数です)。3つのアプローチはすべて、非線形カーネル関数を使用して、線形モデルを使用して学習問題を解決できる空間に入力データを投影します。ガウス過程と同様に、SVMとは異なり、RBFネットワークは通常、確率を最大化する(エラーを最小化する)ことにより最尤フレームワークでトレーニングされます。SVMは、代わりにマージンを最大化することにより、過剰適合を回避します。SVMは、ほとんどの分類アプリケーションでRBFネットワークよりも優れています。回帰アプリケーションでは、入力空間の次元が比較的小さい場合、それらは競合する可能性が
RBFネットワークのしくみ
RBFニューラルネットワークは、概念的にはK最近傍(k-NN)モデルに似ています。基本的な考え方は、同様の入力が同様の出力を生成するということです。
トレーニングセットの場合、xとyの2つの予測変数があり、ターゲット変数には正と負の2つのカテゴリが予測値がx = 6、y = 5.1の新しいケースがある場合、ターゲット変数はどのように計算されますか?
この例で実行される最近傍分類は、考慮される近傍点の数によって異なります。1-NNが使用され、最も近いポイントが負の場合、新しいポイントは負として分類される必要があるいは、9-NN分類が使用され、最も近い9ポイントが考慮される場合、周囲の8つの正のポイントの効果が最も近い9(負)ポイントを上回る可能性が
RBFネットワークは、予測変数(この例ではx、y)によって記述された空間にニューロンを配置します。この空間には、予測変数と同じ数の次元がユークリッド距離は、新しい点から各ニューロンの中心まで計算され、放射基底関数(RBF)(カーネル関数とも呼ばれます)が距離に適用されて、各ニューロンの重み(影響)が計算されます。動径基底関数は、半径距離が関数の引数であるため、このように名付けられています。
重量= RBF(距離)
動径基底関数
新しい点の値は、RBF関数の出力値に各ニューロンに対して計算された重みを掛けたものを合計することによって求められます。
ニューロンの動径基底関数には、中心と半径(スプレッドとも呼ばれます)が半径はニューロンごとに異なる場合があり、DTREGによって生成されたRBFネットワークでは、半径は次元ごとに異なる場合が
広がりが大きいほど、ある点から離れたニューロンの影響が大きくなります。
建築
RBFネットワークには3つの層が
入力層:各予測変数の入力層に1つのニューロンが表示されます。カテゴリ変数の場合、N-1ニューロンが使用されます。ここで、Nはカテゴリの数です。入力ニューロンは、中央値を減算し、四分位範囲で除算することにより、値の範囲を標準化します。次に、入力ニューロンは、隠れ層の各ニューロンに値を供給します。
隠れ層:この層には、可変数のニューロンがあります(トレーニングプロセスによって決定されます)。各ニューロンは、予測変数と同じ数の次元を持つ点を中心とする放射基底関数で構成されます。RBF関数の広がり(半径)は、次元ごとに異なる場合がセンターとスプレッドはトレーニングによって決定されます。入力層からの入力値のxベクトルが提示されると、隠れニューロンはニューロンの中心点からのテストケースのユークリッド距離を計算し、拡散値を使用してこの距離にRBFカーネル関数を適用します。結果の値は、合計レイヤーに渡されます。
合計層:隠れ層のニューロンから出てくる値は、ニューロンに関連付けられた重みで乗算され、他のニューロンの重み付き値に追加されます。この合計が出力になります。分類問題の場合、ターゲットカテゴリごとに1つの出力が生成されます(重みと合計単位の個別のセットを使用)。カテゴリの出力値は、評価されているケースにそのカテゴリがある確率です。
トレーニング
次のパラメータは、トレーニングプロセスによって決定されます。
隠れ層のニューロンの数
各隠れ層RBF関数の中心の座標
各次元の各RBF関数の半径(広がり)
RBF関数に適用された重みは、合計レイヤーに渡されるときに出力されます
RBFネットワークのトレーニングにはさまざまな方法が使用されています。1つのアプローチでは、最初にK-meansクラスタリングを使用してクラスター中心を見つけ、次にRBF関数の中心として使用します。ただし、K-meansクラスタリングは計算量が多く、最適な数の中心を生成しないことがよく別のアプローチは、トレーニングポイントのランダムなサブセットをセンターとして使用することです。
DTREGは、進化的アプローチを使用するトレーニングアルゴリズムを使用して、各ニューロンの最適な中心点と広がりを決定します。推定されたリーブワンアウト(LOO)エラーを監視し、過剰適合のためにLOOエラーが増加し始めたときに終了することにより、ネットワークへのニューロンの追加を停止するタイミングを決定します。
隠れ層と合計層のニューロン間の最適な重みの計算は、リッジ回帰を使用して行われます。反復手順は、一般化交差検定(GCV)エラーを最小化する最適な正則化Lambdaパラメーターを計算します。
一般回帰ニューラルネットワーク
一般回帰ニューラルネットワーク
GRNNは、確率的ニューラルネットワークに似た連想メモリニューラルネットワークですが、分類ではなく回帰と近似に使用されます。
ディープビリーフネットワーク
ディープビリーフネットワーク
完全に接続された可視ユニットと非表示ユニットを備えた
制限付きボルツマンマシン(RBM)。非表示または表示-表示の接続がないことに注意して
ディープビリーフネットワーク(DBN)は、複数の隠れ層で構成される確率的で生成的なモデルです。これは、単純な学習モジュールの構成と見なすことができます。
DBNは、学習したDBNの重みを初期DNNの重みとして使用することにより、ディープニューラルネットワーク(DNN)を生成的に事前トレーニングするために使用できます。次に、さまざまな識別アルゴリズムでこれらの重みを調整できます。これは、トレーニングデータが限られている場合に特に役立ちます。これは、重みの初期化が不十分な場合、学習が大幅に妨げられる可能性があるためです。これらの事前トレーニングされた重みは、ランダムな選択よりも最適な重みに近い重み空間の領域になります。これにより、モデリングの改善と最終的な収束の高速化の両方が可能になります。
リカレントニューラルネットワーク
リカレントニューラルネットワーク
リカレントニューラルネットワーク(RNN)は、データを順方向に伝播しますが、後の処理段階から前の段階に逆方向にも伝播します。RNNは一般的なシーケンスプロセッサとして使用できます。
完全に再発
このアーキテクチャは1980年代に開発されました。そのネットワークは、ユニットのすべてのペア間に直接接続を作成します。それぞれに、時間とともに変化する実数値(0または1以上)のアクティブ化(出力)が各接続には、変更可能な実数値の重みが一部のノードはラベル付きノード、一部の出力ノード、残りの非表示ノードと呼ばれます。
以下のために教師付き学習離散時間設定で、実数値入力ベクトルのトレーニングシーケンスは、入力ノード、一度に一つの入力ベクトルのアクティベーションのシーケンスになります。各タイムステップで、各非入力ユニットは、接続を受信するすべてのユニットのアクティブ化の加重和の非線形関数として、現在のアクティブ化を計算します。システムは、特定のタイムステップで一部の出力ユニットを(入力信号とは無関係に)明示的にアクティブ化できます。たとえば、入力シーケンスが話された数字に対応する音声信号である場合、シーケンスの最後の最終的なターゲット出力は、数字を分類するラベルである可能性が各シーケンスのエラーは、ネットワークによって計算されたすべてのアクティベーションの対応するターゲット信号からの偏差の合計です。多数のシーケンスのトレーニングセットの場合、合計エラーはすべての個々のシーケンスのエラーの合計です。
総誤差を最小限に抑えるために、非線形活性化関数が微分可能である場合、勾配降下法を使用して、誤差に関する導関数に比例して各重みを変更できます。標準的な方法は、「時間による逆伝播」またはBPTTと呼ばれ、フィードフォワードネットワークの逆伝播の一般化です。 より計算コストの高いオンラインバリアントは、「リアルタイム反復学習」またはRTRLと呼ばれます。 BPTTとは異なり、このアルゴリズムは時間的にはローカルですが、空間的にはローカルではありません。 BPTTとRTRLの間に中程度の複雑さのオンラインハイブリッドが存在し、 連続時間のバリアントが標準RNNアーキテクチャの勾配降下法の主な問題は、重要なイベント間のタイムラグのサイズに応じて、エラー勾配が指数関数的に急速に消失することです。 長期、短期メモリアーキテクチャは、これらの問題を克服します。
で強化学習の設定、何の先生は、ターゲット信号を提供し代わりに、適応度関数、報酬関数、または効用関数を使用してパフォーマンスを評価することがこれは、環境に影響を与えるアクチュエータに接続された出力ユニットを介して入力ストリームに影響を与えます。進化的計算の変形は、重み行列を最適化するためによく使用されます。
ホップフィールド
ホップフィールドネットワーク
ホップフィールドネットワーク、それがパターンのプロセスシーケンスに設計されていないとして、それは、一般的なRNNないが(同様のアトラクターベースのネットワークのような)は、歴史的に重要です。代わりに、固定入力が必要です。これは、すべての接続が対称であるRNNです。収束することを保証します。接続がヘッブの学習を使用してトレーニングされている場合、ホップフィールドネットワークは、接続の変更に耐性のある、堅牢な連想メモリとして機能できます。
ボルツマンマシン
ボルツマンマシン
ボルツマンマシンは、ノイズの多いホップフィールドネットワークと考えることができます。これは、潜在変数(隠しユニット)の学習を実証した最初のニューラルネットワークの1つです。ボルツマン機械学習は最初はシミュレートに時間がかかりましたが、対照的な発散アルゴリズムにより、ボルツマン機械とProducts ofExpertsのトレーニングが高速化されます。
自己組織化マップ
自己組織化マップ
自己組織化マップ(SOM)は、教師なし学習を使用します。ニューロンのセットは、入力空間の点を出力空間の座標にマッピングすることを学習します。入力スペースは出力スペースとは異なる次元とトポロジーを持つことができ、SOMはこれらを保持しようとします。
学習ベクトル量子化
学習ベクトル量子化
学習ベクトル量子化(LVQ)は、ニューラルネットワークアーキテクチャとして解釈できます。クラスの典型的な代表は、距離ベースの分類スキームで、適切な距離測度とともにパラメーター化されます。
単純な再発
単純なリカレントネットワークには3つの層があり、入力層に「コンテキストユニット」のセットが追加されています。これらのユニットは、1の固定重みで隠れ層または出力層から接続します。各タイムステップで、入力は標準のフィードフォワード方式で伝播され、次にバックプロパゲーションのような学習ルールが適用されます(勾配降下法は実行されません)。固定バック接続は、コンテキストユニット内の非表示ユニットの以前の値のコピーを残します(学習ルールが適用される前に接続を介して伝播するため)。
貯水池コンピューティング
貯水池コンピューティング
貯水池コンピューティングは、ニューラルネットワークの拡張と見なすことができる計算フレームワークです。通常、入力信号は、リザーバーと呼ばれる固定(ランダム)動的システムに供給され、そのダイナミクスは入力をより高い次元にマッピングします。読み出し機構は、所望の出力にリザーバをマッピングするために訓練されます。トレーニングは、読み出し段階でのみ実行されます。液体状態マシンは、リザーバーコンピューティングの一種です。
エコー状態
エコー状態ネットワーク
エコー状態ネットワーク(ESN)は、まばらに接続されたランダムな隠れ層を採用しています。出力ニューロンの重みは、トレーニングされるネットワークの唯一の部分です。ESNは、特定の時系列を再現するのが得意です。
長期短期記憶
長期短期記憶
長い短期記憶(LSTM)は避け消失勾配問題を。入力間の遅延が長い場合でも機能し、低周波数成分と高周波数成分が混在する信号を処理できます。LSTM RNNは、言語学習や接続された手書き認識などのアプリケーションで、他のRNNやHMMなどの他のシーケンス学習方法を上回りました。
双方向
双方向RNN(BRNN)は、有限シーケンスを使用して、要素の過去と将来の両方のコンテキストに基づいて、シーケンスの各要素を予測またはラベル付けします。これは、2つのRNNの出力を追加することによって行われます。1つは左から右へのシーケンスを処理し、もう1つは右から左へのシーケンスを処理します。組み合わされた出力は、教師から与えられたターゲット信号の予測です。この手法は、LSTMと組み合わせると特に有用であることが証明されました。
階層
階層型RNNは、さまざまな方法で要素を接続して、階層型の動作を有用なサブプログラムに分解します。
確率論的
確率的ニューラルネットワーク
確率的ニューラルネットワークは、ネットワークにランダムなバリエーションを導入します。このようなランダムな変動は、モンテカルロサンプリングなどの統計的サンプリングの形式と見なすことができます。
遺伝的スケール
RNN(多くの場合LSTM)。シリーズはいくつかのスケールに分解され、すべてのスケールが2つの連続するポイント間のプライマリの長さを通知します。1次スケールは通常のRNNで構成され、2次スケールは2つのインデックスで区切られたすべてのポイントで構成されます。N次RNNは、最初と最後のノードを接続します。さまざまなスケールすべてからの出力は、機械委員会として扱われ、関連するスコアは次の反復で遺伝的に使用されます。
基本単位
モジュラーニューラルネットワーク
生物学的研究は、人間の脳が小さなネットワークの集まりとして機能することを示しています。この実現により、複数の小さなネットワークが協力または競合して問題を解決するモジュラーニューラルネットワークの概念が生まれました。
機械委員会
コミッティマシン
コミッティマシン(CoM)は、特定の例に一緒に「投票」するさまざまなニューラルネットワークの集まりです。これは通常、個々のネットワークよりもはるかに優れた結果をもたらします。ニューラルネットワークは極小値に悩まされているため、同じアーキテクチャとトレーニングから始めて、ランダムに異なる初期重みを使用すると、多くの場合、結果が大きく異なります。 CoMは結果を安定させる傾向が
CoMは、一般的な機械学習の バギング方法に似ていますが、委員会で必要なさまざまなマシンが、トレーニングデータのランダムに選択されたさまざまなサブセットでトレーニングするのではなく、さまざまな開始ウェイトからトレーニングすることによって取得される点が異なります。
連想
連想ニューラルネットワーク(ASNN)は、複数のフィードフォワードニューラルネットワークとk最近傍法を組み合わせたマシンの委員会の拡張です。これは、kNNの分析されたケースの中での距離の尺度として、アンサンブル応答間の相関を使用します。これにより、ニューラルネットワークアンサンブルのバイアスが修正されます。連想ニューラルネットワークには、トレーニングセットと一致する可能性のあるメモリが新しいデータが利用可能になると、ネットワークは即座に予測能力を向上させ、再トレーニングなしでデータ近似(自己学習)を提供します。ASNNのもう1つの重要な機能は、モデル空間のデータケース間の相関を分析することでニューラルネットワークの結果を解釈できることです。
物理的
物理ニューラルネットワーク
物理ニューラルネットワークには、人工シナプスをシミュレートするための電気的に調整可能な抵抗材料が含まれています。例としては、ADALINE メモリスタベースのニューラルネットワークが光ニューラルネットワークは、 物理的な実装である 人工ニューラルネットワーク を有する 光学部品。
他のタイプ
瞬時に訓練
瞬時に訓練されたニューラルネットワーク(ITNN)は、瞬時に発生するように見える短期学習の現象に触発されました。これらのネットワークでは、隠れ層と出力層の重みがトレーニングベクトルデータから直接マッピングされます。通常、これらはバイナリデータで機能しますが、わずかな追加処理を必要とする連続データのバージョンが存在します。
スパイク
スパイキングニューラルネットワーク(SNN)は、入力のタイミングを明示的に考慮します。ネットワークの入力と出力は通常、一連のスパイク(デルタ関数またはより複雑な形状)として表されます。SNNは、時間領域(時間とともに変化する信号)で情報を処理できます。多くの場合、リカレントネットワークとして実装されます。SNNもパルスコンピュータの一形態です。
軸索伝導遅延を伴うスパイキングニューラルネットワークは多時性を示すため、非常に大きなメモリ容量を持つ可能性が
SNNと、そのようなネットワークにおける神経アセンブリの時間的相関関係は、視覚系における図/地面の分離と領域のリンクをモデル化するために使用されてきました。
規制フィードバック
規制フィードバックネットワークは、負のフィードバックを使用して推論を行います。フィードバックは、ユニットの最適なアクティブ化を見つけるために使用されます。これはノンパラメトリック法に最も似ていますが、フィードフォワードネットワークを数学的にエミュレートするという点でK最近傍法とは異なります。
ネオコグニトロン
ネオコグニトロンは、後にモデル化された階層化、多層ネットワークである視覚野。パターン認識タスクで使用するカスケードモデルとして、複数のタイプのユニット(元々は2つ、単純セルと複雑セルと呼ばれていました)を使用します。 局所的な特徴は、Cセルによって変形が許容されるSセルによって抽出されます。入力のローカル機能は徐々に統合され、上位層に分類されます。さまざまな種類のネオコグニトロンの中には、バックプロパゲーションを使用して選択的注意を達成することにより、同じ入力で複数のパターンを検出できるシステムがこれは、パターン認識タスクおよびインスピレーションを得た畳み込みニューラルネットワークに使用されています。
複合階層ディープモデル
複合階層ディープモデルは、ノンパラメトリックベイズモデルを使用してディープネットワークを構成します。機能は、DBN、ディープボルツマンマシン(DBM)、ディープオートエンコーダー、畳み込みバリアント、 ssRBM、ディープコーディングネットワーク、などのディープアーキテクチャを使用して学習できます。 84]スパース特徴学習を備えたDBN、 RNN、条件付きDBN、ノイズ除去オートエンコーダ。これはより良い表現を提供し、高次元データによるより速い学習とより正確な分類を可能にします。ただし、これらのアーキテクチャは、すべてのネットワークユニットが入力の表現に関与しているため、例がほとんどない新しいクラスの学習には不十分です(分散表現)、一緒に調整する必要があります(自由度が高い)。自由度を制限すると、学習するパラメーターの数が減り、いくつかの例から新しいクラスの学習が容易になります。階層ベイズ(HB)モデルでは、いくつかの例から学習できます。たとえば、コンピュータービジョン、統計、認知科学の場合は です。
複合HDアーキテクチャは、HBネットワークとディープネットワークの両方の特性を統合することを目的としています。複合HDP-DBMアーキテクチャは、階層モデルとしての階層型Dirichletプロセス(HDP)であり、DBMアーキテクチャが組み込まれています。これは完全な生成モデルであり、モデルレイヤーを流れる抽象的な概念から一般化されており、「合理的に」自然に見える新しいクラスで新しい例を合成できます。すべてのレベルは、共同対数確率 スコアを最大化することによって共同で学習されます。
3つの隠れ層を持つDBMでは、可視入力 ” ν ”の確率は次のとおりです。 (( ν ψ
)。= 1 Z
∑ exp(( ∑ I W I (( 1
)。ν I 1 + ∑ ℓ
W ℓ(( 2
)。 1 ℓ2
ℓ W
ℓ (( 3
)。 ℓ 2 3 )。 {p({ boldsymbol { nu}}、 psi)= { frac {1} {Z}} sum _ {h} exp left( sum _ {ij} W_ {ij} ^ {(1)} nu _ {i} h_ {j} ^ {1} + sum _ {j ell} W_ {j ell} ^ {(2)} h_ {j} ^ {1} h_ { ell} ^ {2} + sum _ { ell m} W _ { ell m} ^ {(3)} h _ { ell} ^ {2} h_ {m} ^ {3} right)、}
どこ =
{{ (( 1 )。 、 (( 2 )。 、 (( 3
)。 } {{ boldsymbol {h}} = {{ boldsymbol {h}} ^ {(1)}、{ boldsymbol {h}} ^ {(2)}、{ boldsymbol {h}} ^ { (3)} }}
は隠しユニットのセットであり、ψ =
{{ W (( 1
)。 W(( 2
)。 W(( 3
)。 } { psi = {{ boldsymbol {W}} ^ {(1)}、{ boldsymbol {W}} ^ {(2)}、{ boldsymbol {W}} ^ {(3)} }}
はモデルパラメータであり、可視-非表示および非表示-非表示の対称交互作用項を表します。
学習したDBMモデルは、同時分布を定義する無向モデルです。 (( ν 、 1 、 2
、 3)。
{P( nu、h ^ {1}、h ^ {2}、h ^ {3})}
。学んだことを表現する1つの方法は、条件付きモデルです。 (( ν 、 1 、 2
∣ 3)。
{P( nu、h ^ {1}、h ^ {2} mid h ^ {3})}
および前期 (( 3)。
{P(h ^ {3})}
。
ここ (( ν 、 1 、 2
∣ 3)。
{P( nu、h ^ {1}、h ^ {2} mid h ^ {3})}
条件付きDBMモデルを表します。これは、2層DBMと見なすことができますが、の状態によって与えられるバイアス項が 3
{h ^ {3}}
: (( ν 、 1 、 2 ∣ 3 )。 =1 (( ψ 、 3 )。 exp (( ∑ I W I (( 1
)。ν I 1 + ∑ ℓ
W ℓ(( 2
)。 1 ℓ2
ℓ W
ℓ (( 3
)。 ℓ 2 3 )。 {P( nu、h ^ {1}、h ^ {2} mid h ^ {3})= { frac {1} {Z( psi、h ^ {3})}} exp left( sum _ {ij} W_ {ij} ^ {(1)} nu _ {i} h_ {j} ^ {1} + sum _ {j ell} W_ {j ell} ^ { (2)} h_ {j} ^ {1} h _ { ell} ^ {2} + sum _ { ell m} W _ { ell m} ^ {(3)} h _ { ell} ^ {2 } h_ {m} ^ {3} right)。}
深い予測コーディングネットワーク
ディープ予測コーディングネットワーク(DPCN)は、トップダウン情報を使用して、ローカルに接続された深い生成モデルを使用して、ボトムアップ推論手順に必要な事前確率を経験的に調整する予測コーディングスキームです。これは、線形動的モデルを使用して、時変観測からスパース特徴を抽出することによって機能します。次に、プーリング戦略を使用して、不変の特徴表現を学習します。これらのユニットは、深いアーキテクチャを形成するように構成され、貪欲な層ごとの教師なし学習によってトレーニングされます。層は一種のマルコフ連鎖を構成し、任意の層の状態は前後の層にのみ依存します。
DPCNは、上位層の情報と以前の状態からの時間的依存関係を使用したトップダウンアプローチを使用して、層の表現を予測します。
DPCNを拡張して、畳み込みネットワークを形成できます。
多層カーネルマシン
多層カーネルマシン(MKM)は、弱非線形カーネルを繰り返し適用することにより、高非線形関数を学習する方法です。彼らは、カーネル主成分分析(KPCA)を、教師なし貪欲な層ごとの深層学習の事前トレーニングステップの方法として使用します。層 ℓ + 1
{ ell +1}
前のレイヤーの表現を学習します ℓ { ell}
、抽出 l
{n_ {l}}
射影層の主成分(PC) l {l}
カーネルによって誘発された機能ドメインでの出力。各レイヤーで更新された表現の次元数を減らすために、教師あり戦略は、KPCAによって抽出された特徴の中から最も有益な特徴を選択します。プロセスは次のとおりです。
ランク付け ℓ
{n _ { ell}}
クラスラベルとの相互情報量に応じた機能。
Kとの異なる値に対して ℓ ∈ {{
1 …
、 ℓ } {m _ { ell} in {1、 ldots、n _ { ell} }}
、のみを使用して、K最近傍(K-NN)分類器の分類エラー率を計算します。 l
{m_ {l}}
検証セットに関する最も有益な機能。
の値 ℓ
{m _ { ell}}
分類器が最低のエラー率に達したときに、保持する特徴の数が決まります。
MKMのKPCAメソッドにはいくつかの欠点が
深層学習にカーネルマシンを使用するより簡単な方法は、口頭言語を理解するために開発されました。主なアイデアは、カーネルマシンを使用して、無限の数の隠れユニットを持つ浅いニューラルネットを近似し、次にスタッキングを使用して、カーネルマシンの出力と生の入力をつなぎ合わせて、次のより高いレベルのカーネルマシン。深凸ネットワークのレベル数は、システム全体のハイパーパラメータであり、交差検定によって決定されます。
動的
動的ニューラルネットワークは、非線形多変量動作に対処し、過渡現象や遅延効果などの時間依存動作(の学習)を含みます。観測データからシステムプロセスを推定する手法は、システム同定の一般的なカテゴリに分類されます。
カスケード
カスケード相関は、アーキテクチャおよび教師あり学習 アルゴリズムです。固定トポロジーのネットワークで重みを調整するだけでなく、カスケード相関は最小限のネットワークから始まり、新しい隠れユニットを1つずつ自動的にトレーニングして追加し、多層構造を作成します。新しい非表示ユニットがネットワークに追加されると、その入力側の重みは凍結されます。このユニットは、ネットワーク内の永続的な機能検出器になり、出力を生成したり、他のより複雑な機能検出器を作成したりするために使用できます。カスケード相関アーキテクチャにはいくつかの利点がそれは、迅速に学習し、独自のサイズとトポロジを決定し、トレーニングセットが変更されても逆伝播を必要としない場合でも、構築した構造を保持します。
ニューロファジー
ニューロファジーネットワークは、人工ニューラルネットワークの本体にあるファジー 推論システムです。FISタイプに応じて、いくつかのレイヤーが、ファジー推論に関連するプロセスをシミュレートします。たとえば、ファジー化、推論、集約、および非ファジー化です。ANNの一般的な構造にFISを埋め込むことには、ファジーシステムのパラメーターを見つけるために利用可能なANNトレーニング方法を使用するという利点が
構成パターン生成
構成パターン生成ネットワーク
構成パターン生成ネットワーク(CPPN)は、一連の活性化関数とその適用方法が異なる人工ニューラルネットワークのバリエーションです。典型的な人工ニューラルネットワークにはシグモイド関数(場合によってはガウス関数)しか含まれないことがよくありますが、CPPNには両方のタイプの関数と他の多くの関数を含めることができます。さらに、一般的な人工ニューラルネットワークとは異なり、CPPNは可能な入力の空間全体に適用されるため、完全な画像を表すことができます。これらは関数の合成であるため、CPPNは事実上、無限の解像度で画像をエンコードし、最適な解像度で特定のディスプレイ用にサンプリングできます。
メモリネットワーク
メモリネットワーク には長期記憶が組み込まれています。長期記憶は、予測に使用することを目的として、読み取りと書き込みが可能です。これらのモデルは、長期記憶が(動的な)知識ベースとして効果的に機能し、出力がテキスト応答である質問応答(QA)のコンテキストで適用されています。
疎分散メモリまたは階層時間メモリ、ニューラルネットワークによってコードされるパターンはのアドレスとして使用される連想メモリ本質的にアドレスエンコーダととして「ニューロン」と、デコーダ。しかし、そのような記憶の初期のコントローラーは区別できませんでした。
ワンショット連想記憶
このタイプのネットワークは、再トレーニングせずに新しいパターンを追加できます。これは、隣接して接続された階層配列を使用して、新しい各パターンを直交平面に割り当てる特定のメモリ構造を作成することによって行われます。ネットワークは、リアルタイムのパターン認識と高いスケーラビリティを提供します。これには並列処理が必要であるため、ワイヤレスセンサーネットワーク、グリッドコンピューティング、GPGPUなどのプラットフォームに最適です。
階層的時間記憶
階層的時間記憶
階層的時間記憶(HTM)は、新皮質の構造的およびアルゴリズム的特性のいくつかをモデル化します。HTMは、記憶予測理論に基づく生体模倣モデルです。HTMは、観測された入力パターンとシーケンスの高レベルの原因を発見および推測するための方法であり、したがって、ますます複雑になる世界のモデルを構築します。
HTMは、既存のアイデアを組み合わせて新皮質を模倣し、多くの機能を提供するシンプルなデザインを採用しています。HTMは、ベイジアンネットワーク、空間および時間クラスタリングアルゴリズムで使用されるアプローチを組み合わせて拡張し、ニューラルネットワークで一般的なツリー型のノード階層を使用します。
ホログラフィック連想記憶
ホログラフィック連想記憶
ホログラフィック連想記憶(HAM)は、アナログの相関ベースの連想刺激応答システムです。情報は、複素数の位相方向にマッピングされます。記憶は、連想 記憶課題、一般化、および変化する注意を伴うパターン認識に効果的です。動的検索ローカリゼーションは、生物学的記憶の中心です。視覚では、人間はパターン内の特定のオブジェクトに焦点を合わせます。人間は学習せずにオブジェクトからオブジェクトに焦点を変えることができます。HAMは、フォーカスの明示的な表現を作成することにより、この機能を模倣できます。これは、パターンのバイモーダル表現とホログラムのような複雑な球形の重み状態空間を使用します。HAMは、基礎となる超球形計算を光学計算で実装できるため、光学的実現に役立ちます。
LSTM関連の微分可能メモリ構造
長短期記憶(LSTM)とは別に、他のアプローチもまた、反復関数に微分可能記憶を追加しました。例えば:
ニューラルスタックマシンと呼ばれる代替メモリネットワークの微分可能なプッシュおよびポップアクション
制御ネットワークの外部微分可能ストレージが別のネットワークよりも高速であるメモリネットワーク
LSTMはゲートを忘れます
微分可能な方法でRNN自体の重みに対処し、迅速に操作するための特別な出力ユニットを備えた自己参照RNN(内部ストレージ)
無制限の記憶で変換することを学ぶ
ニューラルチューリングマシン
ニューラルチューリングマシン
ニューラルチューリングマシンは、 LSTMネットワークを外部メモリリソースに結合し、注意プロセスによって相互作用することができます。組み合わされたシステムはチューリングマシンに類似していますが、エンドツーエンドで微分可能であり、最急降下法によって効率的にトレーニングすることができます。予備的な結果は、ニューラルチューリングマシンが入力と出力の例からコピー、並べ替え、連想想起などの単純なアルゴリズムを推測できることを示しています。
微分可能ニューラルコンピューター(DNC)はNTM拡張です。それらは、シーケンス処理タスクにおいて、ニューラルチューリングマシン、長期短期記憶システム、およびメモリネットワークを上回りました。
セマンティックハッシュ
直接前の経験を表し、アプローチのローカルモデルを形成するために、似たような経験を使用することは、しばしば呼ばれている最近傍またはK最近傍の方法を。ディープラーニングは、大量のドキュメントから取得された単語数ベクトルのディープグラフィカルモデルであるセマンティックハッシュで役立ちます。ドキュメントは、意味的に類似したドキュメントが近くのアドレスに配置されるように、メモリアドレスにマップされます。クエリドキュメントに類似したドキュメントは、クエリドキュメントのアドレスとわずか数ビット異なるすべてのアドレスにアクセスすることで見つけることができます。1000ビットアドレスで動作するスパース分散メモリとは異なり、セマンティックハッシュは従来のコンピュータアーキテクチャに見られる32ビットまたは64ビットアドレスで機能します。
ポインターネットワーク
ディープニューラルネットワークは、トレーニング可能性を維持しながら、深化とパラメータ削減によって潜在的に改善できます。非常に深い(たとえば、100万層)ニューラルネットワークのトレーニングは実用的ではないかもしれませんが、ポインタネットワークやニューラルランダムアクセスマシンなどのCPUのようなアーキテクチャは、外部ランダムアクセスメモリなどを使用してこの制限を克服します。レジスタ、ALU、ポインタなど、通常はコンピュータアーキテクチャに属するコンポーネント。このようなシステムは、メモリセルとレジスタに格納された確率分布ベクトルで動作します。したがって、モデルは完全に微分可能であり、エンドツーエンドでトレーニングします。これらのモデルの主な特徴は、モデルの深さ、短期記憶のサイズ、およびパラメーターの数を個別に変更できることです。
ハイブリッド
エンコーダー-デコーダーネットワーク
エンコーダーデコーダーフレームワークは、高度に構造化された入力を高度に構造化された出力にマッピングするニューラルネットワークに基づいています。アプローチは、コンテキスト内で発生した機械翻訳、 入力と出力は2つの固有の言語で文章を書かれています。その作業では、LSTM RNNまたはCNNをエンコーダーとして使用してソースセンテンスを要約し、条件付きRNN言語モデルを使用して要約をデコードして翻訳を生成しました。これらのシステムはビルディングブロックを共有します:ゲート付きRNNとCNNおよび訓練された注意メカニズム。
も参照してください
適応共鳴理論
人工生命
自動連想メモリ
オートエンコーダ
生物学的にインスピレーションを得たコンピューティング
青い脳
コネクティニストエキスパートシステム
逆伝播ネットワーク
デシジョンツリー
エキスパートシステム
遺伝的アルゴリズム
その場適応集計
大記憶記憶および検索ニューラルネットワーク
線形判別分析
ロジスティック回帰
多層パーセプトロン
神経ガス
Neuroevolution、Augmented TopologiesのNeuroEvolution(NEAT)
Ni1000チップ
光ニューラルネットワーク
粒子群最適化
予測分析
主成分分析
焼き鈍し法
シストリックアレイ
時間遅延ニューラルネットワーク(TDNN)
参考文献
^ 南カリフォルニア大学。(2004年6月16日)。灰色の問題:ニューロンが情報を処理する方法への新しい手がかり。ScienceDailyの引用:「…「100年にわたる現代の神経科学研究の後、ニューロンの基本的な情報処理機能がまだわからないのは驚くべきことです」とバートレット・メルは述べています…」
^ ワイツマン科学研究所。(2007年4月2日)。それはただの運が左右するゲームです:質問に呼ばれる知覚の主要な理論。ScienceDailyの引用:「…」1980年代以来、多くの神経科学者は、脳の働きを最終的に理解し始めるための鍵を持っていると信じていました。しかし、私たちは、脳が正確な活動パターンを使用して情報をエンコードしない可能性があることを示唆する強力な証拠を提供しました。 “”…””
^ カリフォルニア大学ロサンゼルス校(2004年12月14日)。UCLAの神経科学者は、海産カタツムリの研究から人間の脳への洞察を得る。ScienceDailyの引用:「…」私たちの仕事は、これらの種類の関連を形成するための脳のメカニズムがカタツムリと高等生物で非常に類似している可能性があることを意味します…これらの動物での非常に単純な種類の学習でさえ完全には理解し」 …」
^ イェール大学。(2006年4月13日)。脳はアナログモードとデジタルモードで同時に通信します。ScienceDailyの引用:「… McCormickは、脳内の神経活動の将来の調査とモデルは、通信のアナログとデジタルの混合の性質を考慮に入れる必要があると述べました。この混合モードの信号伝送を完全に理解することによってのみ、真に脳とその障害の深い理解が達成されると彼は言った…」
^ Ivakhnenko、Alexey Grigorevich(1968)。「データ処理のグループ法–確率的近似法のライバル」。ソビエト自動制御。13(3):43–55。
^ Ivakhnenko、AG(1971)。「複雑系の多項式理論」。システム、人間、およびサイバーネティクスに関するIEEEトランザクション。1(4):364–378。土井:10.1109 /TSMC.1971.4308320。S2CID 17606980。
^ 近藤徹; 上野淳(2008)。「多層GMDH型ニューラルネットワーク自己選択最適ニューラルネットワークアーキテクチャとその血管の3次元医療画像認識への応用」。革新的なコンピューティング、情報および制御の国際ジャーナル。4(1):175–187。
^ ベンジオ、Y。(2009)。「AIのディープアーキテクチャの学習」(PDF)。機械学習の基礎とトレンド。2:1〜127。CiteSeerX 10.1.1.701.9550。土井:10.1561 / 2200000006。
^ Liou、Cheng-Yuan(2008)。「エルマンネットワークを使用した単語知覚のモデリング」。ニューロコンピューティング。71(16–18):3150–3157。土井:10.1016 /j.neucom.2008.04.030。
^ Liou、Cheng-Yuan(2014)。「単語のオートエンコーダ」。ニューロコンピューティング。139:84–96。土井:10.1016 /j.neucom.2013.09.055。
^ ディーデリクPキングマ; ウェリング、マックス(2013)。「変分ベイズの自動エンコーディング」。arXiv:1312.6114 。
^ の生成は2015年、トーチ、Boesen A.、ラーセンL.とSonderby SKと顔トーチ.CH /ブログ/ 2015 /11 /13 / GaN系の.html
^ 「競争力のある確率的ニューラルネットワーク(PDFダウンロード可能)」。ResearchGate 。
^ 「アーカイブされたコピー」。アーカイブされたオリジナルの2010年12月18日に。
> ^ 「アーカイブされたコピー」(PDF)。2012-01-31にオリジナル(PDF)からアーカイブされました。
^ TDNN Fundamentals、Kapitel aus dem Online Handbuch des SNNS
^ Zhang、Wei(1990)。「ローカル空間不変相互接続とその光学アーキテクチャを備えた並列分散処理モデル」。応用光学。29(32):4790–7。Bibcode:1990ApOpt..29.4790Z。土井:10.1364 /ao.29.004790。PMID 20577468。
^ 張、魏(1988)。「シフト不変パターン認識ニューラルネットワークとその光学的アーキテクチャ」。応用物理学会年次大会議事録。
^ J. Weng、N。Ahuja、TS Huang、「 2D画像からの3Dオブジェクトの認識とセグメンテーションの学習」、 Proc。第4回国際会議 Computer Vision、ベルリン、ドイツ、pp。121–128、1993年5月。
^ 福島K.(1980)。「ネオコグニトロン:位置のシフトの影響を受けないパターン認識のメカニズムのための自己組織化神経ネットワークモデル」。Biol。Cybern。36(4):193–202。土井:10.1007 / bf00344251。PMID 7370364。S2CID 206775608。
^ LeCun、ヤン。「LeNet-5、畳み込みニューラルネットワーク」。取得した16年11月2013。
^ 「畳み込みニューラルネットワーク(LeNet)– DeepLearning0.1ドキュメント」。ディープラーニング0.1。LISAラボ。取得した31年8月2013。
^ LeCun etal。、「手書きの郵便番号認識に適用されるバックプロパゲーション」、 Neural Computation、1、pp。541–551、1989。
^ ヤン・ルカン(2016)。ディープラーニングオンラインのスライド
^ 「教師なし特徴学習と深層学習のチュートリアル」。ufldl.stanford.edu。
^ ヒントン、ジェフリーE。; クリジェフスキー、アレックス; Wang、Sida D.(2011)、 “Transforming Auto-Encoders”、Lecture Notes in Computer Science、Springer、pp。44–51、CiteSeerX 10.1.1.220.5099、doi:10.1007 / 978-3-642-21735-7_6、ISBN
9783642217340
^ Szegedy、クリスチャン; 劉、魏; Jia、Yangqing; セルマネット、ピエール; リード、スコット; アンゲロフ、ドラゴミール; エルハン、ドゥミトル; Vanhoucke、Vincent; ラビノビッチ、アンドリュー(2014)。畳み込みでさらに深くなる。コンピューティングリサーチリポジトリ。NS。1. arXiv:1409.4842。土井:10.1109 /CVPR.2015.7298594。ISBN
978-1-4673-6964-0。S2CID 206592484。
^ ラン、リンギャン; 張、柳; 張、麒麟; ヤン、タオ(2017-06-12)。「キャリブレーションされていない球面画像を使用した畳み込みニューラルネットワークベースのロボットナビゲーション」(PDF)。センサー。17(6):1341 Bibcode:2017Senso..17.1341R。土井:10.3390 / s17061341。ISSN 1424から8220まで。PMC 5492478。PMID 28604624。
^ van den Oord、アーロン; ディーレマン、サンダー; シュラウウェン、ベンジャミン(2013-01-01)。バージス、CJC; ぼっとう、L。; ウェリング、M。; Ghahramani、Z。; ワインバーガー、KQ(編)。ディープコンテンツベースの音楽レコメンデーション(PDF)。カランアソシエイツ。pp。2643–2651。
^ コロバート、ロナン; ウェストン、ジェイソン(2008-01-01)。自然言語処理のための統合アーキテクチャ:マルチタスク学習を備えたディープニューラルネットワーク。機械学習に関する第25回国際会議の議事録。米国ニューヨーク州ニューヨーク:ACM。pp。160–167。土井:10.1145 /1390156.1390177。ISBN
978-1-60558-205-4。S2CID 2617020。
^ ng、Li; ユ、ドン; プラット、ジョン(2012)。「深いアーキテクチャを構築するためのスケーラブルなスタッキングと学習」(PDF)。2012 IEEE International Conference on Acoustics、Speech and Signal Processing( ICASSP ):2133–2136。土井:10.1109 /ICASSP.2012.6288333。ISBN 978-1-4673-0046-9。S2CID 16171497。
^ ng、Li; ユ、ドン(2011)。「DeepConvexNet:音声パターン分類のためのスケーラブルなアーキテクチャ」(PDF)。インタースピーチの議事録:2285–2288。土井:10.21437 /Interspeech.2011-607。
^ デビッド、ウォルパート(1992)。「スタックされた一般化」。ニューラルネットワーク。5(2):241–259。CiteSeerX 10.1.1.133.8090。土井:10.1016 / S0893-6080(05)80023-1。
^ ベンジオ、Y。(2009-11-15)。「AIのディープアーキテクチャの学習」。機械学習の基礎とトレンド。2(1):1〜127。CiteSeerX 10.1.1.701.9550。土井:10.1561 / 2200000006。ISSN 1935から8237まで。
^ ハッチンソン、ブライアン; リー・デン; ユ、ドン(2012)。「テンソルディープスタッキングネットワーク」。パターン分析と機械知能に関するIEEEトランザクション。1–15(8):1944–1957。土井:10.1109 /tpami.2012.268。PMID 23267198。S2CID 344385。
^ ヒントン、ジェフリー; サラフトディノフ、ラスラン(2006)。「ニューラルネットワークによるデータの次元削減」。科学。313(5786):504–507。Bibcode:2006Sci … 313..504H。土井:10.1126 /science.1127647。PMID 16873662。S2CID 1658773。
^ ダール、G。; Yu、D。; Deng、L。; Acero、A。(2012)。「大語彙音声認識のためのコンテキスト依存の事前トレーニング済みディープニューラルネットワーク」。オーディオ、スピーチ、および言語処理に関するIEEEトランザクション。20(1):30–42。CiteSeerX 10.1.1.227.8990。土井:10.1109 /tasl.2011.2134090。S2CID 14862572。
^ モハメド、アブデルラーマン; ダール、ジョージ; ヒントン、ジェフリー(2012)。「ディープビリーフネットワークを使用した音響モデリング」。オーディオ、スピーチ、および言語処理に関するIEEEトランザクション。20(1):14–22。CiteSeerX 10.1.1.338.2670。土井:10.1109 /tasl.2011.2109382。S2CID 9530137。
^ ng、Li; ユ、ドン(2011)。「DeepConvexNet:音声パターン分類のためのスケーラブルなアーキテクチャ」(PDF)。インタースピーチの議事録:2285–2288。土井:10.21437 /Interspeech.2011-607。
^ ng、Li; ユ、ドン; プラット、ジョン(2012)。「深いアーキテクチャを構築するためのスケーラブルなスタッキングと学習」(PDF)。2012 IEEE International Conference on Acoustics、Speech and Signal Processing( ICASSP ):2133–2136。土井:10.1109 /ICASSP.2012.6288333。ISBN 978-1-4673-0046-9。S2CID 16171497。
^ ヒントン、GE(2009)。「ディープビリーフネットワーク」。スカラーペディア。4(5):5947. Bibcode:2009SchpJ … 4.5947H。土井:10.4249 /scholarpedia.5947。
^ Larochelle、Hugo; エルハン、ドゥミトル; アーロン・クールヴィル; ジェームス・ベルグストラ; ベンジオ、ヨシュア(2007)。変動の多くの要因を伴う問題に関するディープアーキテクチャの経験的評価。機械学習に関する第24回国際会議の議事録。ICML’07。米国ニューヨーク州ニューヨーク:ACM。pp。473–480。CiteSeerX 10.1.1.77.3242。土井:10.1145 /1273496.1273556。ISBN
9781595937933。S2CID 14805281。
^ ワーボス、PJ(1988)。「再発ガス市場モデルへの適用を伴うバックプロパゲーションの一般化」。ニューラルネットワーク。1(4):339–356。土井:10.1016 / 0893-6080(88)90007-x。
^ デビッド・E・ラメルハート; ジェフリーE.ヒントン; ロナルド・J・ウィリアムズ。エラー伝播による内部表現の学習。
^ AJロビンソンとF.フォールサイド。ユーティリティ駆動の動的エラー伝搬ネットワーク。テクニカルレポートCUED / F-INFENG / TR.1、ケンブリッジ大学工学部、1987年。
^ RJウィリアムズとD.ジッパー。リカレントネットワークとその計算の複雑さのための勾配ベースの学習アルゴリズム。バックプロパゲーション:理論、アーキテクチャ、アプリケーション。ニュージャージー州ヒルズデール:Erlbaum、1994年。
^ Schmidhuber、J。(1989)。「動的フィードフォワードおよびリカレントネットワークのためのローカル学習アルゴリズム」。接続科学。1(4):403–412。土井:10.1080 / 09540098908915650。S2CID 18721007。
^ ニューラルおよび適応システム:シミュレーションによる基礎。JC Principe、NR Euliano、WC Lefebvre
^ Schmidhuber、J。(1992)。「完全に反復的な継続的に実行されるネットワークのための固定サイズのストレージO(n3)時間計算量学習アルゴリズム」。ニューラル計算。4(2):243–248。土井:10.1162 /neco.1992.4.2.243。S2CID 11761172。
^ RJウィリアムズ。リカレントニューラルネットワークの正確な勾配計算アルゴリズムの複雑さ。テクニカルレポートテクニカルレポートNU-CCS-89-27、ボストン:北東大学、コンピュータサイエンス学部、1989年。
^ パールマッター、BA(1989)。「リカレントニューラルネットワークにおける状態空間軌道の学習」(PDF)。ニューラル計算。1(2):263–269。土井:10.1162 /neco.1989.1.2.263。S2CID 16813485。
^ S。ホッフライター。Untersuchungen zu dynamischen NeuronalenNetzen。卒業論文、Institutf。テクニッシュ大学情報学部 ミュンヘン、1991年。
^ S. Hochreiter、Y。Bengio、P。Frasconi、およびJ.Schmidhuber。リカレントネットの勾配フロー:長期的な依存関係を学習することの難しさ。SCKremerとJFKolenの編集者、動的リカレントニューラルネットワークのフィールドガイド。IEEE Press、2001年。
^ Hochreiter、S。; シュミットフーバー、J。(1997)。「長期短期記憶」。ニューラル計算。9(8):1735–1780。土井:10.1162 /neco.1997.9.8.1735。PMID 9377276。S2CID 1915014。
^ Cybernetic Systemsとしてのニューラルネットワーク第2版および改訂版、Holk Cruse
^ Schrauwen、Benjamin、 David Verstraeten、およびJan Van Campenhout「貯水池コンピューティングの概要:理論、アプリケーション、および実装」。人工ニューラルネットワークに関する欧州シンポジウムの議事録ESANN2007、pp。471–482。
^ ミサ、ヴォルフガング; Nachtschlaeger、T。; Markram、H。(2002)。「安定状態のないリアルタイムコンピューティング:摂動に基づく神経計算のための新しいフレームワーク」。ニューラル計算。14(11):2531–2560。土井:10.1162 / 089976602760407955。PMID 12433288。S2CID 1045112。
^ エコー状態ネットワーク、Scholarpedia
^ イエーガー、H。; ハーネス(2004)。「カオスシステムの予測と無線通信のエネルギー節約」。科学。304(5667):78–80。Bibcode:2004Sci … 304 … 78J。CiteSeerX 10.1.1.719.2301。土井:10.1126 /science.1091277。PMID 15064413。S2CID 2184251。
^ FAGersとJ.Schmidhuber。LSTMリカレントネットワークは、単純な文脈自由および文脈依存言語を学習します。IEEETransactionson Neural Networks 12(6):1333–1340,2001。
^ A.グレイブス、J。シュミットフーバー。多次元リカレントニューラルネットワークを使用したオフライン手書き認識。Advances in Neural Information Processing Systems 22、NIPS’22、p 545-552、バンクーバー、MIT Press、2009年。
^ シュスター、マイク; Paliwal、Kuldip K.(1997)。「双方向の再発神経ネットワーク」。信号処理に関するIEEEトランザクション。45(11):2673–2681。Bibcode:1997ITSP … 45.2673S。CiteSeerX 10.1.1.331.9441。土井:10.1109 /78.650093。
^ グレイブス、A。; シュミットフーバー、J。(2005)。「双方向LSTMおよび他のニューラルネットワークアーキテクチャによるフレームワイズ音素分類」。ニューラルネットワーク。18(5–6):602–610。CiteSeerX 10.1.1.331.5800。土井:10.1016 /j.neunet.2005.06.042。PMID 16112549。
^ Schmidhuber、J。(1992)。「履歴圧縮の原理を使用した複雑で拡張されたシーケンスの学習」。ニューラル計算。4(2):234–242。土井:10.1162 /neco.1992.4.2.234。S2CID 18271205。
^ 進化したリカレントニューラルネットワークにおける運動プリミティブの動的表現
^ 「連想ニューラルネットワーク」。www.vcclab.org 。
^ アンダーソン、ジェームズA。; ローゼンフェルド、エドワード(2000)。トーキングネット:ニューラルネットワークの口頭の歴史。ISBN
9780262511117。
^ Gerstner; キスラー。「スパイクニューロンモデル:単一ニューロン、集団、可塑性」。icwww.epfl.ch 。 無料で入手できるオンライン教科書
^ Izhikevich EM。「ポリクロニゼーション:スパイクを使用した計算」。ニューラル計算。18(2):245–82。土井:10.1162 / 089976606775093882。PMID 16378515。S2CID 14253998。
^ Achler T.、Omar C.、Amir E。、「Shedding Weights:More With Less」、IEEEProc。ニューラルネットワークに関する国際合同会議、2008年
^ David H.HubelおよびTorstenN。Wiesel(2005)。脳と視覚:25年間のコラボレーションの物語。オックスフォード大学出版局。NS。106. ISBN
978-0-19-517618-6。
^ ヒューベル、DH; テネシー州ヴィーゼル(1959年10月)。「猫の線条体皮質における単一ニューロンの受容野」。J.Physiol。148(3):574–91。土井:10.1113 /jphysiol.1959.sp006308。PMC 1363130。PMID 14403679。
^ 福島1987年、p。83。
^ 福島1987年、p。84。
^ 福島2007
^ 福島1987、pp.81、85
^ LeCun、Yann; ベンジオ、ヨシュア; ヒントン、ジェフリー(2015)。「ディープラーニング」。ネイチャー。521(7553):436–444。Bibcode:2015Natur.521..436L。土井:10.1038 / nature14539。PMID 26017442。S2CID 3074096。
^ ヒントン、GE ; Osindero、S。; Teh、Y。(2006)。「ディープビリーフネットのための高速学習アルゴリズム」(PDF)。ニューラル計算。18(7):1527–1554。CiteSeerX 10.1.1.76.1541。土井:10.1162 /neco.2006.18.7.1527。PMID 16764513。S2CID 2309950。
^ ヒントン、ジェフリー; サラフトディノフ、ラスラン(2009)。「ディープボルツマンマシンの効率的な学習」(PDF)。3:448–455。
^ Larochelle、Hugo; ベンジオ、ヨシュア; Louradour、Jerdme; ランブリン、パスカル(2009)。「ディープニューラルネットワークをトレーニングするための戦略を探る」。機械学習研究ジャーナル。10:1〜40。
^ コーツ、アダム; カーペンター、ブレイク(2011)。「教師なし特徴学習を使用したシーン画像でのテキスト検出と文字認識」(PDF):440–445。
^ リー、ホンラック; グロス、ロジャー(2009)。階層的表現のスケーラブルな教師なし学習のための畳み込みディープビリーフネットワーク。機械学習に関する第26回年次国際会議の議事録。pp。1–8。CiteSeerX 10.1.1.149.6800。土井:10.1145 /1553374.1553453。ISBN
9781605585161。S2CID 12008458。
^ クールヴィル、アーロン; ジェームス・ベルグストラ; ベンジオ、ヨシュア(2011)。「スパイクアンドスラブRBMによる教師なし画像モデル」(PDF)。機械学習に関する第28回国際会議の議事録。10。pp。1–8。
^ 林、元清; 張、通; 朱、Shenghuo; ユー・カイ(2010)。「ディープコーディングネットワーク」。ニューラル情報処理システムの進歩23(NIPS 2010)。pp。1–9。
^ Ranzato、Marc Aurelio; Boureau、Y-Lan(2007)。「ディープビリーフネットワークのためのスパース特徴学習」(PDF)。ニューラル情報処理システムの進歩。23:1〜8。
^ ソッヘル、リチャード; リン、クリフ(2011)。「再帰型ニューラルネットワークを使用した自然シーンと自然言語の解析」(PDF)。機械学習に関する第26回国際会議の議事録。
^ テイラー、グラハム; ヒントン、ジェフリー(2006)。「バイナリ潜在変数を使用した人間の動きのモデリング」(PDF)。ニューラル情報処理システムの進歩。
^ ヴィンセント、パスカル; Larochelle、Hugo(2008)。ノイズ除去オートエンコーダを使用した堅牢な特徴の抽出と構成。機械学習に関する第25回国際会議の議事録– ICML’08。pp。1096–1103。CiteSeerX 10.1.1.298.4083。土井:10.1145 /1390156.1390294。ISBN
9781605582054。S2CID 207168299。
^ ケンプ、チャールズ; パーフォーズ、エイミー; テネンバウム、ジョシュア(2007)。「階層ベイズモデルによる過剰仮説の学習」。発達科学。10(3):307–21。CiteSeerX 10.1.1.141.5560。土井:10.1111 /j.1467-7687.2007.00585.x。PMID 17444972。
^ 徐、飛; テネンバウム、ジョシュア(2007)。「ベイズ推定としての単語学習」。サイコール。改訂。114(2):245–72。CiteSeerX 10.1.1.57.9649。土井:10.1037 /0033-295X.114.2.245。PMID 17500627。
^ チェン、ボー; Polatkan、Gungor(2011)。「畳み込み因子分析と深層学習のための階層型ベータプロセス」(PDF)。機械学習に関する国際会議に関する第28回国際会議の議事録。オムニプレス。pp。361–368。ISBN 978-1-4503-0619-5。
^ フェイ・フェイ、リー; ファーガス、ロブ(2006)。「オブジェクトカテゴリのワンショット学習」。パターン分析と機械知能に関するIEEEトランザクション。28(4):594–611。CiteSeerX 10.1.1.110.9024。土井:10.1109 /TPAMI.2006.79。PMID 16566508。S2CID 6953475。
^ ロドリゲス、アベル; ダンソン、デビッド(2008)。「ネストされたディリクレプロセス」。アメリカ統計協会誌。103(483):1131–1154。CiteSeerX 10.1.1.70.9873。土井:10.1198 / 016214508000000553。S2CID 13462201。
^ ラスラン、サラフトディノフ; ジョシュア、テネンバウム(2012)。「階層的-深いモデルによる学習」。パターン分析と機械知能に関するIEEEトランザクション。35(8):1958–71。CiteSeerX 10.1.1.372.909。土井:10.1109 /TPAMI.2012.269。PMID 23787346。S2CID 4508400。
^ Chalasani、Rakesh; プリンシペ、ホセ(2013)。「ディープ予測コーディングネットワーク」。arXiv:1301.3541 。
^ Scholkopf、B; スモーラ、アレクサンダー(1998)。「カーネル固有値問題としての非線形成分分析」。ニューラル計算。44(5):1299–1319。CiteSeerX 10.1.1.53.8911。土井:10.1162 / 089976698300017467。S2CID 6674407。
^ Cho、Youngmin(2012)。「ディープラーニングのためのカーネル法」(PDF):1–9。
^ ng、Li; トゥール、ゴカン; 彼、シャオドン; Hakkani-Tür、Dilek(2012-12-01)。「カーネルディープコンベックスネットワークの使用と口頭言語理解のためのエンドツーエンド学習」。MicrosoftResearch。
^ ファールマン、スコットE。; レビエール、クリスチャン(1991年8月29日)。「カスケード相関学習アーキテクチャ」(PDF)。カーネギーメロン大学。
^ シュミットフーバー、ユルゲン(2014)。「メモリネットワーク」。arXiv:1410.3916 。
^ シュミットフーバー、ユルゲン(2015)。「エンドツーエンドのメモリネットワーク」。arXiv:1503.08895 。
^ シュミットフーバー、ユルゲン(2015)。「メモリネットワークを使用した大規模な簡単な質問応答」。arXiv:1506.02075 。
^ ヒントン、ジェフリーE.(1984)。「分散表現」。2016年5月2日にオリジナルからアーカイブされました。
^ Nasution、BB; カーン、AI。「リアルタイムパターン認識のための階層的グラフニューロンスキーム」。ニューラルネットワークでのIEEEトランザクション。19(2):212–229。土井:10.1109 /TNN.2007.905857。PMID 18269954。S2CID 17573325。
^ サザーランド、ジョンG.(1990年1月1日)。「記憶、学習、表現のホログラフィックモデル」。ニューラルシステムの国際ジャーナル。01(3):259–267。土井:10.1142 / S0129065790000163。
^ S. Das、CL Giles、GZ Sun、「学習コンテキストフリー文法:外部スタックメモリを使用したリカレントニューラルネットワークの制限」、Proc。第14回年次会議 歯車の。科学 Soc。、p。79、1992。
^ モーザー、MC; Das、S。(1993)。「文脈自由言語の構造を発見するコネクショニストシンボルマニピュレーター」。ニューラル情報処理システムの進歩。5:863〜870。
^ Schmidhuber、J。(1992)。「高速記憶を制御することを学ぶ:リカレントネットの代替」。ニューラル計算。4(1):131–139。土井:10.1162 /neco.1992.4.1.131。S2CID 16683347。
^ Gers、F。; Schraudolph、N。; シュミットフーバー、J。(2002)。「LSTMリカレントネットワークを使用した正確なタイミングの学習」(PDF)。JMLR。3:115–143。
^ ユルゲンシュミットフーバー(1993)。「独自の体重変化アルゴリズムの実行を学ぶことができる内省的なネットワーク」。ブライトンの人工ニューラルネットワークに関する国際会議の議事録。IEE。pp。191–195。
^ Hochreiter、Sepp; 若い、A。スティーブン; コンウェル、ピーターR.(2001)。「最急降下法を使用して学ぶことを学ぶ」。ICANN。2130:87–94。CiteSeerX 10.1.1.5.323。
^ シュミットフーバー、ユルゲン(2015)。「無制限の記憶で変換することを学ぶ」。arXiv:1506.02516 。
^ シュミットフーバー、ユルゲン(2014)。「ニューラルチューリングマシン」。arXiv:1410.5401 。
^ バージェス、マット。「DeepMindのAIは、人間のような理由と記憶を使用してロンドン地下鉄に乗ることを学びました」。ワイアードUK 。
^ 「DeepMindAIはロンドン地下鉄をナビゲートすることを学ぶ」。PCMAG 。
^ マンネス、ジョン。「DeepMindの微分可能ニューラルコンピューターは、その記憶で地下鉄をナビゲートするのに役立ちます」。TechCrunch 。
^ グレイブス、アレックス; ウェイン、グレッグ; レイノルズ、マルコム; ハーレー、ティム; ダニヘルカ、イヴォ; Grabska-Barwińska、Agnieszka; コルメナレホ、セルヒオゴメス; エドワード・グレフェンステット; ラマーリョ、ティアゴ(2016-10-12)。「動的外部メモリを備えたニューラルネットワークを使用したハイブリッドコンピューティング」。ネイチャー。538(7626):471–476。Bibcode:2016Natur.538..471G。土井:10.1038 / nature20101。ISSN 1476から4687まで。PMID 27732574。S2CID 205251479。
^ 「微分可能ニューラルコンピューター| DeepMind」。DeepMind 。
^ Atkeson、クリストファーG。; Schaal、Stefan(1995)。「ロボット学習のためのメモリベースのニューラルネットワーク」。ニューロコンピューティング。9(3):243–269。土井:10.1016 / 0925-2312(95)00033-6。
^ サラフトディノフ、ラスラン、ジェフリーヒントン。「セマンティックハッシュ。」International Journal of Explicit Reasoning 50.7(2009):969–978。
^ Le、Quoc V。; ミコロフ、トーマス(2014)。「文と文書の分散表現」。arXiv:1405.4053 。
^ シュミットフーバー、ユルゲン(2015)。「ポインタネットワーク」。arXiv:1506.03134 。
^ シュミットフーバー、ユルゲン(2015)。「ニューラルランダムアクセスマシン」。arXiv:1511.06392 。
^ Kalchbrenner、N。; Blunsom、P。(2013)。反復連続翻訳モデル。EMNLP’2013。pp。1700–1709。
^ Sutskever、I。; ヴィニャルス、O。; Le、QV(2014)。「ニューラルネットワークを使用したシーケンスからシーケンスへの学習」(PDF)。ニューラル情報処理システムに関する第28回会議。arXiv:1409.3215。
^ シュミットフーバー、ユルゲン(2014)。「統計的機械翻訳のためのRNNエンコーダー-デコーダーを使用したフレーズ表現の学習」。arXiv:1406.1078 。
^ シュミットフーバー、ユルゲン; アーロン・クールヴィル; ベンジオ、ヨシュア(2015)。「アテンションベースのエンコーダー-デコーダーネットワークを使用したマルチメディアコンテンツの説明」。マルチメディアでのIEEEトランザクション。17(11):1875–1886。arXiv:1507.01053。Bibcode:2015arXiv150701053C。土井:10.1109 /TMM.2015.2477044。S2CID 1179542。
“