W-shingling
自然言語処理W-シングリングとのセットであるユニーク 帯状疱疹(従って、nグラムの連続で構成されてそれぞれが)サブシーケンスのトークン内の文書次に確認するために使用することができ、文書間の類似度を。記号wは、選択または解決された各シングルのトークンの数を示します。
したがって、「バラはバラである」という文書は、次のように最大限にトークン化できます。(a、rose、is、a、rose、is、a、rose)
4つのトークンのすべての連続したシーケンスのセット(したがって、4 = n、したがって4グラム)は次のようになります。
{(a、rose、is、a)、(rose、is、a、rose)、(is、a、rose、is)、(a、rose、is、a)、(rose、is、a、rose) }これは、この特定のインスタンスでは{(a、rose、is、a)、(rose、is、a、rose)、(is、a、rose、is)}に縮小するか、最大限に瓦礫にすることができます。
コンテンツ
1 類似性
2 も参照してください
3 参考文献
4 外部リンク
類似性
所与のシングルサイズのために、二つの文書度合いAとBは互いに似ているが、それらのshinglings’の大きさの比として表すことができる交差点と組合、または (( 、 )。 = | (( )。
∩ (( )。 | | (( )。
∪ (( )。 | {r(A、B)= {{| S(A) cap S(B)|} over {| S(A) cup S(B)|}}}
ここで| A | はセットAのサイズです。類似性はの範囲の数値です。ここで、1は2つのドキュメントが同一であることを示します。この定義は、サンプルセットの類似性と多様性を表すJaccard係数と同じです。
も参照してください
コンセプトマイニング(計算がより複雑なドキュメント類似性計算の代替方法ですが、メジャーがドキュメント類似性の人間の認識をより厳密にモデル化する場合)
Nグラムk-mer MinHash
ローリングハッシュ
ラビンフィンガープリント
ベクトル空間モデル
Bag-of-wordsモデル
参考文献(Manber 1993)大きなファイルシステムで同様のファイルを見つける。「シングル」という用語はまだ使用し(Broder、Glassman、Manasse、およびZweig 1997)Webの構文クラスタリング。SRCテクニカルノート#1997-015。
外部リンク
マニング、クリストファーD。; ラガヴァン、プラバカール; シュッツェ、ヒンリッヒ(2008年7月7日)。「w-shingling」。情報検索入門。ケンブリッジ大学出版局。ISBN 978-1-139-47210-4。”