t-分散確率的ネイバー埋め込み


T-distributed_stochastic_neighbor_embedding

「TSNE」はボストンを拠点とする組織については、Third Sector NewEnglandを参照してください
t-distributed stochastic neighbor embedding(t-SNE)は、各データポイントに2次元または3次元のマップ内の位置を与えることにより、高次元データを視覚化するための統計的手法です。これは、SamRoweisとGeoffreyHintonによって最初に開発されたStochasticNeighbor Embedding に基づいており、Laurens van derMaatenがt分布のバリアントを提案しました。これは非線形次元削減です2次元または3次元の低次元空間で視覚化するために高次元データを埋め込むのに適した手法。具体的には、類似オブジェクトが近くのポイントでモデル化され、非類似オブジェクトが離れたポイントでモデル化される確率が高くなるように、各高次元オブジェクトを2次元または3次元のポイントでモデル化します。
t-SNEアルゴリズムは、2つの主要な段階で構成されています。まず、t-SNEは、類似したオブジェクトに高い確率が割り当てられ、異なるポイントに低い確率が割り当てられるように、高次元オブジェクトのペアにわたる確率分布を構築します。次に、t-SNEは、低次元マップ内のポイント全体で同様の確率分布を定義し、マップ内のポイントの位置に関して2つの分布間のカルバックライブラーダイバージェンス(KLダイバージェンス)を最小化します。元のアルゴリズムは、オブジェクト間のユークリッド距離を類似性メトリックのベースとして使用しますが、これは必要に応じて変更できます。
t-SNEは、ゲノミクス、コンピューターセキュリティ研究、自然言語処理、音楽分析、 癌研究、 バイオインフォマティクス、地質学的領域の解釈、 および生物医学的信号処理。
t-SNEプロットはクラスターを表示するように見えることがよくありますが、視覚クラスターは選択したパラメーター化の影響を強く受ける可能性があるため、t-SNEのパラメーターを十分に理解する必要がこのような「クラスター」は、クラスター化されていないデータにも現れる可能性があり、したがって誤った結果である可能性がしたがって、パラメータを選択して結果を検証するには、インタラクティブな調査が必要になる場合が t-SNEは、十分に分離されたクラスターを回復できることが多く、特別なパラメーターを選択することで、単純な形式のスペクトルクラスタリングを近似できることが実証されています。

コンテンツ
1 詳細
2 ソフトウェア
3 参考文献
4 外部リンク

詳細
与えられたセット {N}

  高次元のオブジェクト 1 …
、 { mathbf {x} _ {1}、 dots、 mathbf {x} _ {N}}

 、t-SNEは最初に確率を計算します I {p_ {ij}}

  オブジェクトの類似性に比例する 私
{ mathbf {x} _ {i}}

  と { mathbf {x} _ {j}}

 、 次のように。
にとって I ≠ {i neq j}

 、 定義 ∣I = exp(( − ‖ 私 − ‖ 2/ 2 σ 2
)。 ∑ k≠ I exp(( −
‖ 私
− k ‖ 2/ 2
σ 2 )。 {p_ {j mid i} = { frac { exp(- lVert mathbf {x} _ {i}- mathbf {x} _ {j} rVert ^ {2} / 2 sigma _ {i} ^ {2})} { sum _ {k neq i} exp(- lVert mathbf {x} _ {i}- mathbf {x} _ {k} rVert ^ {2 } / 2 sigma _ {i} ^ {2})}}}
  とセット 私
∣ 0
{p_ {i mid i} = 0}

 。ご了承ください
∑∣ 1
{ sum _ {j} p_ {j mid i} = 1}

  すべてのために I {i}

 。
Van der MaatenとHintonが説明したように、「データポイントの類似性 {x_ {j}}

  データポイントへ 私
{x_ {i}}

  は条件付き確率であり、 | I {p_ {j | i}}

 、 それ 私
{x_ {i}}

  選ぶだろう {x_ {j}}

  を中心とするガウス分布の下で確率密度に比例してネイバーが選択された場合、そのネイバーとして 私
{x_ {i}}

 。」
今定義する I = ∣ I + 私
∣2 {p_ {ij} = { frac {p_ {j mid i} + p_ {i mid j}} {2N}}}
  と注意してください 私= 私
{p_ {ij} = p_ {ji}}

 、 私 I 0 {p_ {ii} = 0}

 、 と
∑ I 、 私= 1 { sum _ {i、j} p_ {ij} = 1}

 。
ガウスカーネルの帯域幅
σ I { sigma _ {i}}

 ようなAのように設定されている当惑条件付き分布を使用して事前に定義されたパープレキシティと等しい二分法。その結果、帯域幅はデータの密度に適合します。σ I
{ sigma _ {i}}

  データ空間のより密度の高い部分で使用されます。
ガウスカーネルはユークリッド距離を使用するため
‖ 私
−‖
{ lVert x_ {i} -x_ {j} rVert}

 、それは次元の呪いの影響を受け、距離が区別する能力を失うと高次元データでは、 I {p_ {ij}}

 類似しすぎます(漸近的に、それらは定数に収束します)。これを軽減するために、各ポイントの内在次元に基づいて、パワー変換を使用して距離を調整するます。
t-SNEは {d}

 -次元マップ y 1 … y { mathbf {y} _ {1}、 dots、 mathbf {y} _ {N}}

  (とy I
∈ { mathbf {y} _ {i} in mathbb {R} ^ {d}}

 )類似点を反映している I {p_ {ij}}

 可能な限り。この目的のために、それは類似性を測定します I {q_ {ij}}

  マップ内の2点間y I
{ mathbf {y} _ {i}}

  と
y { mathbf {y} _ {j}}

 、非常によく似たアプローチを使用します。具体的には、 I ≠ {i neq j}

 、 定義 I {q_ {ij}}

  なので I =(( 1+ ‖ y I −
y ‖ 2 )。− 1 ∑
k ∑ l≠ k(( 1 + ‖ y k − y l ‖ 2
)。− 1
{q_ {ij} = { frac {(1+ lVert mathbf {y} _ {i}- mathbf {y} _ {j} rVert ^ {2})^ {-1}} { sum _ {k} sum _ {l neq k}(1+ lVert mathbf {y} _ {k}- mathbf {y} _ {l} rVert ^ {2})^ {-1 }}}}
  とセット 私 I 0 {q_ {ii} = 0}

 。ここでは、裾が重いスチューデントのt分布(1自由度、コーシー分布と同じ)を使用して、低次元の点間の類似性を測定し、マップ内で異なるオブジェクトをモデル化できるようにします。 。
ポイントの場所y I
{ mathbf {y} _ {i}}

 マップ内の分布の(非対称)カルバック・ライブラー発散を最小化することによって決定されます {P}

  ディストリビューションから {Q}

 、 あれは:K L(( ∥ )。= ∑ I
≠ I ログ I I { mathrm {KL} left(P parallel Q right)= sum _ {i neq j} p_ {ij} log { frac {p_ {ij}} {q_ {ij}}} }
  ポイントに関するカルバック・ライブラー発散の最小化y I
{ mathbf {y} _ {i}}

 最急降下法を使用して実行されます。この最適化の結果は、高次元の入力間の類似性を反映するマップです。

ソフトウェア
RパッケージRtsneは、Rにt-SNEを実装します。
ELKIにはtSNEが含まれており、これもバーンズハット近似を使用しています
Pythonで人気のある機械学習ツールキットであるScikit-learnは、正確な解とバーンズハット近似の両方を使用してt-SNEを実装します。
TensorFlowに関連する視覚化キットであるTensorboardも、t-SNE(オンラインバージョン)を実装しています。

参考文献
^ Roweis、Sam; ヒントン、ジェフリー。確率的ネイバー埋め込み (PDF)。ニューラル情報処理システム。
^ van der Maaten、LJP; ジェフリーヒントン。「t-SNEを使用したデータの視覚化」(PDF)。Journal of Machine LearningResearch。9:2579–2605。
^ ガシ、私。スタンコビッチ、V。; レイタ、C。; Thonnard、O。(2009)。「既製のアンチウイルスエンジンによる多様性の実験的研究」。ネットワークコンピューティングとアプリケーションに関するIEEE国際シンポジウムの議事録:4–11。
^ Hamel、P。; Eck、D。(2010)。「ディープビリーフネットワークを使用した音楽オーディオからの機能の学習」。国際音楽情報検索学会の議事録:339–344。
^ ジェイミーソン、AR; ギガー、ML; Drukker、K。; ルイ、H。; 元、Y。; ブーシャン、N。(2010)。「ラプラシアン固有マップとt-SNEを使用した乳房CADxでの非線形特徴空間次元削減とデータ表現の調査」。医学物理学。37(1):339–351。土井:10.1118 /1.3267037。PMC 2807447。PMID 20175497。    ^ Wallach、I。; Liliean、R。(2009)。「タンパク質-小分子データベース、タンパク質-リガンド結合の分析のための非冗長構造リソース」。バイオインフォマティクス。25(5):615–620。土井:10.1093 / bioinformatics / btp035。PMID 19153135。   ^ 「地質データの材料タイプドメインを識別するためのt-SNE、SOM、およびSPADEの比較」。コンピューターと地球科学。125:78–89。2019-04-01。土井:10.1016 /j.cageo.2019.01.011。ISSN 0098から3004まで。   ^ Balamurali、Mehala; Melkumyan、Arman(2016)。廣瀬明; 小沢誠一; 銅谷賢治; カズシ・イケダ; イ・ミンホ; 劉、デロン(編)。「t-SNEベースの視覚化と地質領域のクラスタリング」。神経情報処理。コンピュータサイエンスの講義ノート。チャム:Springer International Publishing:565–572。土井:10.1007 / 978-3-319-46681-1_67。ISBN  978-3-319-46681-1。
^ Leung、Raymond; Balamurali、Mehala; メルクミャン、アルマン(2021-01-01)。「地球化学的データにおける外れ値除去のためのサンプル切り捨て戦略:MCDロバスト距離アプローチ対t-SNEアンサンブルクラスタリング」。数学的地球科学。53(1):105–130。土井:10.1007 / s11004-019-09839-z。ISSN 1874から8953まで。   ^ Birjandtalab、J。; Pouyan、MB; ノウラニ、M。(2016-02-01)。EEGベースのてんかん発作検出のための非線形次元削減。2016 IEEE-EMBS International Conference on Biomedical and Health Informatics(BHI)。pp。595–598。土井:10.1109 /BHI.2016.7455968。ISBN  978-1-5090-2455-1。S2CID  8074617。
^ 「K-はt-SNEの出力でのクラスタリングを意味します」。相互検証済み。
^ ペッツォッティ、ニコラ; Lelieveldt、Boudewijn PF; Maaten、Laurens van der; ホルト、トーマス; アイゼマン、エルマー; ビラノバ、アンナ(2017-07-01)。「プログレッシブビジュアル分析のための近似およびユーザー操作可能なtSNE」。視覚化とコンピュータグラフィックスに関するIEEEトランザクション。23(7):1739–1752。arXiv:1512.01655。土井:10.1109 /tvcg.2016.2570755。ISSN 1077年から2626年。PMID 28113434。S2CID 353336。     ^ マーチン・ヴァッテンベルク; フェルナンダ・ヴィエガス; ジョンソン、イアン(2016-10-13)。「t-SNEを効果的に使用する方法」。蒸留します。
^ リンダーマン、ジョージC。; シュタイナーバーガー、ステファン(2017-06-08)。「t-SNEを使用したクラスタリング、おそらく」。arXiv:1706.02582 。
^ シューベルト、エーリッヒ; Gertz、Michael(2017-10-04)。可視化と外れ値検出のための固有のt-StochasticNeighborEmbedding。SISAP 2017 –類似性の検索とアプリケーションに関する第10回国際会議。pp。188–203。土井:10.1007 / 978-3-319-68474-1_13。

外部リンク
t-SNEを使用したデータの視覚化、Google TechTalkのt-SNE
さまざまな言語でのt-SNEの実装、 Laurens van derMaatenによって維持されているリンクコレクション”