メカブ


MeCab

MeCabは、もともと奈良先端科学技術大学院大学が開発し、現在は工藤拓 (工藤拓) がGoogle 日本語入力プロジェクトの一環として管理している、日本語で書かれたテキストで使用するためのオープンソースの テキスト セグメンテーションライブラリです。 この名前は、開発者の好物である和布蕪( わかめの葉で作った日本料理) に由来します。
メカブ
開発者
工藤卓、Google 日本語入力プロジェクト
安定版リリース
0.996 / 2013 年 2 月 18 日; 9年前 (2013-02-18)
リポジトリ
github.com/taku910/mecab _ _ _
で書かれている
C++には、 C、C#、Java、Perl、Python、およびRuby用のモジュールが
プラットホーム
クロスプラットフォーム
ライセンス
GPL、LGPL、およびBSD ライセンスのトライライセンス
Webサイト
https://taku910.github.io/mecab
元々は茶筅をベースにChaSenTNGという名前で開発されていたが、現在は茶筅とは独立してゼロから書き直したもの。MeCab の解析精度は ChaSen に匹敵し、解析速度は平均で 3 ~ 4 倍高速です。
MeCab は、文を分析して品詞に分割することができます。MeCab の辞書はいくつかありますが、 ChaSen と同様にIPADICが最も一般的に使用されています。
2007 年、Google は MeCab を使用して大規模な日本語テキスト コーパスのn-gramデータを生成し、Google Japan ブログで公開しました。
MeCab は、 Mac OS X 10.5 と 10.6、およびバージョン 2.1 以降のiOSでの日本語入力にも使用されます。


入力: (WIKIPEDIA)は誰でも編集できるフリー百科事典です
結果: 名詞,一般,*,*,*,*,*( 記号,序開,*,*,*,*,(,(,(名, 固有名,組織,*,*,*,*) 記号,ロイド閉,*,*,*,*,),),)は助詞,係助詞,*,*,*,*,は,ハ,ワ誰の名詞,代名詞,一般,*,*,*,誰,ダレ,ダレでも助詞,副助詞,*,*,*,*,でも,デモ,デモ編集名詞,サ変接続,*,*,*,*,編集,ヘンシュウ,ヘンシューできる動詞, 自立,*,*,一段,基本形,できる,デキル,デキルフリー名,一般,*,*,*,*,フリー,フリー,フリー百科名,一般,*,*,*,*,百科,ヒャッカ,ヒャッカ事典名,一般,*,*,*,*,事典,ジテン,ジテン助動詞です,*,*,*,特殊・デス,基本形,です,デス,デスイオス
テキストを分割するだけでなく、MeCab は単語の品詞を一覧表示し、辞書にある場合はその発音も一覧表示します。上記の例では、できる動詞 ( dekiru 、「することができる」) は、不定形 (基本形) の一段 (一段) 動詞 (動詞) に分類されます。でも ( demo )という単語は、副助詞(副助詞)として識別されます。すべての列がすべての単語に適用されるわけではないため、列が単語に適用されない場合はアスタリスクが使用されます。これにより、単語とタブ文字の後の情報をコンマ区切り値としてフォーマットできます。
MeCab は複数の出力形式もサポートしています。そのうちの 1 つであるchasenは、 ChaSen用に作成されたプログラムが使用できる形式でタブ区切りの値を出力します。もう 1 つの形式である
yomi (読むよむから、読む) は、入力テキストの読みを以下のようにカタカナとして出力します。 ()ハダレデモヘンシュウデキルフリーヒャッカジテンデス

参考文献
^ “「ググル」の精度を高めるために必要なもの - @IT自分戦略研究所” [Google が精度を向上させるために必要なこと]. ITmedia (日本語)。2006-03-15 . 2009 年4 月9 日閲覧。
^ “思い通りの日本語入力 – Google 日本語入力” . グーグル(日本語)。2009-12-03 . 2009 年12 月3 日閲覧。
^ 「Google Japan ブログ: 大規模日本語 n-gram データの公開」 [大規模な日本語テキスト コーパスにまたがる n-gram データの公開]. グーグル(日本語)。2007-11-01 . 2009 年4 月9 日閲覧。
^ 「大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google)」 [(講演)大規模テキスト処理を支える形態素解析(Google社員 工藤卓氏)]. 2009-12-03 . 2009 年12 月3 日閲覧。
^ 「iPhoneの仮名漢字変換はMeCabを利用」[iPhoneはかな漢字変換にMeCabを使用] (日本語). 2009-12-03。2008-09-18にオリジナルからアーカイブ。2009 年12 月3 日閲覧。
^ 工藤拓. 「MeCab: まだ別の品詞および形態素アナライザー」 . taku910.github.io . _ 2018年1月23日閲覧。

外部リンク
image"
FLOSSポータル
公式ウェブサイト”