Categories: 未分類

キャッシュ言語モデル

Cache_language_model
キャッシュ言語モデルは、統計言語モデルの一種です。これらは、コンピューターサイエンスの自然言語処理のサブフィールドで発生し、確率分布によって特定の単語シーケンスに確率を割り当てます。統計的言語モデルは、音声認識システムと多くの機械翻訳システムの重要なコンポーネントです。統計的言語モデルは、可能な出力単語シーケンスが可能性が高く、どれが可能性が低いかをそのようなシステムに伝えます。キャッシュ言語モデルの特徴は、キャッシュコンポーネントが含まれていることです。また、特定のテキストの他の場所に出現する単語または単語シーケンスに比較的高い確率を割り当てます。キャッシュ言語モデルの主要な (決して唯一ではない) 用途は、音声認識システムです。
統計的言語モデルにキャッシュコンポーネントを含めることがなぜ良い考えなのかを理解するために、象に関する手紙を音声認識システムに口述している人を考えてみて標準 (非キャッシュ) N-gram言語モデルでは、「elephant」という単語は英語では非常にまれな単語であるため、非常に低い確率でこの単語に割り当てられます。音声認識システムにキャッシュコンポーネントが含まれていない場合、文字を口述する人はイライラする可能性が「elephant」という単語が発話されるたびに、N-gram 言語モデルに従って高い確率で別の一連の単語が認識される可能性があります (例: 、「計画を伝える」）。これらの誤ったシーケンスは手動で削除し、テキスト内で「elephant」が発話されるたびに「elephant」に置き換える必要がシステムにキャッシュ言語モデルがある場合、「elephant」はおそらく最初に話されたときに誤認識され、手動でテキストに入力する必要がただし、この時点から、システムは「elephant」が再び発生する可能性が高いことを認識しています。「elephant」の推定発生確率が増加し、発声された場合に正しく認識される可能性が高くなります。「エレファント」が数回発生すると、文字が完全に口述されるまで、システムはそれが話されるたびにそれを正しく認識する可能性が「象」の発生に割り当てられる確率のこの増加は、機械学習、より具体的にはパターン認識の結果の一例です。
キャッシュ言語モデルには、単一の単語だけでなく、以前に発生した複数の単語シーケンスにも高い確率が割り当てられるバリアントが存在します (たとえば、「サンフランシスコ」がテキストの冒頭近くに発生した場合、その後続のインスタンスが割り当てられます)。確率が高い）。
キャッシュ言語モデルは、1990 年に発行された論文で最初に提案され、その後、IBMの音声認識グループがこの概念を実験しました。このグループは、ドキュメントの最初の数百語が書き取られると、キャッシュ言語モデルの形式を実装すると、単語エラー率が 24% 低下することを発見しました。言語モデリング技術の詳細な調査では、キャッシュ言語モデルは、標準の N-gram アプローチよりも改善された数少ない新しい言語モデリング技術の 1 つであると結論付けられました。小規模および中規模のトレーニングデータサイズでの混乱を軽減するために」。
キャッシュ言語モデルの開発は、計算言語学全般、特に統計的自然言語処理に関係する人々の間で大きな関心を集めています。最近では、キャッシュ言語モデルを統計的機械翻訳の分野に適用することに関心が寄せられています。
単語予測の改善におけるキャッシュ言語モデルの成功は、単語を「バースト」方式で使用する人間の傾向にかかっています。特定のトピックについて特定のコンテキストで議論している場合、特定の単語を使用する頻度は、実際の状況とはまったく異なります。他の文脈で他のトピックについて話し合っているときの頻度。確率が割り当てられる単語の前にある非常に少数 (4 つ、3 つ、または 2 つ) の単語からの情報に完全に依存する従来の N-gram 言語モデルは、この「バースト性」を適切にモデル化し
最近、キャッシュ言語モデルの概念 (元々は N グラム統計言語モデルパラダイムのために考案された) が、ニューラルパラダイムでの使用に適応されました。たとえば、リカレントニューラルネットワーク(RNN) 設定での連続キャッシュ言語モデルに関する最近の研究では、キャッシュの概念が以前よりもはるかに大きなコンテキストに適用され、混乱が大幅に軽減されました。最近の別の研究では、フィードフォワードニューラル言語モデル (FN-LM) にキャッシュコンポーネントを組み込んで、ドメインへの迅速な適応を実現しています。

こちらもご覧ください
人工知能
自然言語処理の歴史
機械翻訳の歴史
音声認識
統計機械翻訳

参考文献
^ Kuhn， R.; De Mori， R. (1990 年 6月）。「音声認識のためのキャッシュベースの自然言語モデル」 (PDF) . パターン分析とマシンインテリジェンスに関する IEEE トランザクション。12 (6): 570–583. ドイ: 10.1109/34.56193。ISSN 1939-3539。2011-09-01にオリジナル (PDF)からアーカイブ。2011 年9 月 24 日閲覧。(アブストラクト)
^ F.ジェリネック; B.メリアルド; S. Roukos & M. Strauss (1991)。「音声認識のための動的言語モデル」 (PDF) . アメリカ音響学会誌。98 (2): 293–295. ドイ: 10.3115/112405.112464。S2CID 11601499 . 2006 年 6 月 14 日にオリジナル (PDF)からアーカイブされました。会議: Speech and Natural Language、Proceedings of a Workshop、パシフィックグローブ、カリフォルニア州、米国、1999 年 2 月 19 ～ 22 日に開催。
^ジョシュア・T・グッドマン（2001)。言語モデリングの少しの進歩: 拡張版. ワシントン州レドモンド (米国): Microsoft Research。arXiv : cs/0108005v1 . ビブコード: 2001cs……..8005G . テクニカルレポート MSR-TR-2001-72。
^Tiedemann、Jorg （2010)。指数関数的に減衰するキャッシュを持つモデルを使用した統計的機械翻訳におけるコンテキスト適応 (PDF)。自然言語処理のためのドメイン適応に関する 2010 ワークショップの議事録、ACL 2010。ウプサラ、スウェーデン: 計算言語学協会。pp.8–15。
^エドゥアール・グレイブ; ムスタファ・シセ。アルマン・ジュラン（2017)。「オープン語彙を使用したオンライン言語モデリングのための無制限キャッシュモデル」 . NIPS’17 神経情報処理システムに関する第 31 回国際会議の議事録。カリフォルニア州ロングビーチ: コンピューティング機械協会。pp. 6044–6054。ISBN 978-1-5108-6096-4.
^ カレル・ベネス; サントッシュ・ケシラジュ; ルーカス・バージェ（2018)。i-Vectors in Language Modeling: An Efficient Way of Domain Adaptation for Feed-Forward Models . Interspeech 2018. インド、ハイデラバード: Interspeech。pp.3383–3387。doi : 10.21437/Interspeech.2018-1070 . S2CID 52192034 .

参考文献
Jelinek、フレデリック(1997)。音声認識の統計的手法。MITプレス。ISBN 0-262-10066-5. 2011 年 8 月 5 日にオリジナルからアーカイブされました。2011 年9 月 24 日閲覧。

admin