コモンクロール


Common_Crawl

Common Crawlは、非営利の 501(c)(3)組織であり、ウェブをクロールし、アーカイブとデータセットを自由に公開しています。 Common CrawlのWebアーカイブは、2011年以降に収集されたペタバイトのデータで構成されています。通常、毎月クロールを完了します。
コモンクロール
業種
501(c)(3)非営利団体
で利用可能
英語
本部
サンフランシスコ、カリフォルニア; ロサンゼルス、カリフォルニア、アメリカ合衆国
創設者
ギル・エルバス
重要人物
Peter Norvig、Nova Spivack、Carl Malamud、Kurt Bollacker Joi Ito URL commoncrawl .org
Common Crawlは、GilElbazによって設立されました。非営利団体の顧問には、PeterNorvigとJoiItoが含まれます。組織のクローラーは、nofollowおよびrobots.txtポリシーを尊重します。CommonCrawlのデータセットを処理するためのオープンソースコードは公開されています。

コンテンツ
1 歴史
2 コモンクロールデータの履歴
3 NorvigWebデータサイエンス賞
4 参考文献
5 外部リンク

歴史
アマゾンウェブサービスは、2012年にパブリックデータセットプログラムを通じてコモンクロールのアーカイブのホストを開始しました。
組織は、その年の7月に、メタデータファイルとクローラーのテキスト出力を.arcファイルと一緒にリリースし始めました。 Common Crawlのアーカイブには、以前は.arcファイルしか含まれていませんでした。
2012年12月、blekkoはCommon Crawl検索エンジンメタデータに寄付しました。blekkoは2012年2月から10月に実施したクロールから収集しました。寄付されたデータは、Common Crawlが「スパム、ポルノ、過度のSEOの影響を回避しながらクロールを改善する」のに役立ちました。
2013年、Common Crawlは、カスタムクローラーの代わりにApache SoftwareFoundationの NutchWebクローラーの使用を開始しました。 Common Crawlは、2013年11月のクロールで.arcファイルの使用から.warcファイルの使用に切り替わりました。
一般的なクロールのフィルタされたバージョンは、OpenAIの訓練に使用されたGPT-3に発表された言語モデルを、2020 一般的なクロールデータを使用する1つの課題は、文書化されたウェブデータの膨大な量にもかかわらず、クロールされたウェブサイトの個々の部分は、より良いかもしれないこと文書化されています。これにより、コモンクロールデータを使用するプロジェクトの問題を診断しようとするときに問題が発生する可能性が2020年にTimnitGebruらによって業界全体のドキュメント不足に対して提案された解決策は、すべてのデータセットに、その動機、構成、収集プロセス、および推奨される使用法をドキュメント化したデータシートを添付する必要があることです。

コモンクロールデータの履歴
以下のデータは、公式のコモンクロールブログから収集されました。
クロール日
TiBでのサイズ
数十億ページ
コメントコメント
2021年4月 320 3.1
2018年11月 220 2.62.6
2018年10月 240 3.0
2018年9月 220 2.8
2018年8月 — —
2018年7月 255 3.25
2018年6月 235 3.05
2018年5月215 2.75
2018年4月230 3.1
2018年3月250 3.2
2018年2月 270 3.43.4
2018年1月 270 3.43.4
2017年12月240 2.9
2017年11月260 3.2
2017年10月300 3.65
2017年9月250 3.01
2017年8月280 3.28
2017年7月240 2.89
2017年6月260 3.16
2017年5月250 2.96
2017年4月250 2.94
2017年3月250 3.07
2017年2月250 3.08
2017年1月250 3.14
2016年12月— 2.85
2016年10月— 3.25
2016年9月— 1.72
2016年8月— 1.61
2016年7月— 1.73
2016年6月— 1.23
2016年5月— 1.46
2016年4月— 1.33
2016年2月— 1.73
2015年11月151 1.82
2015年9月106 1.32
2015年8月149 1.84
2015年7月145 1.81
2015年6月131 1.67
2015年5月159 2.05
2015年4月168 2.11
2015年3月124 1.64
2015年2月145 1.9
2015年1月139 1.82
2014年12月160 2.08
2014年11月135 1.95
2014年10月254 3.7
2014年9月220 2.8
2014年8月200 2.8
2014年7月266 3.6
2014年4月 183 2.62.6
2014年3月223 2.8
最初のナッチクロール
2014年1月148 2.3
毎月実行されるクロール
2013年11月102 2
Warcファイル形式のデータ
2012年7月— —
Arcファイル形式のデータ
2012年1月— —
アマゾンウェブサービスのパブリックデータセット
2011年11月40 5
アマゾンでの最初の可用性

NorvigWebデータサイエンス賞
Common Crawlは、SURFsaraと協力して、ベネルクスの学生と研究者が参加できるコンテストであるNorvig Web Data ScienceAwardを後援しています。 この賞は、この賞の審査委員会の議長も務めるピーター・ノーヴィグにちなんで名付けられました。

参考文献
^ Rosanna Xia(2012年2月5日)。「ハイテク起業家のギル・エルバスが ロサンゼルスで大成功を収めた」ロサンゼルスタイムズ。
^ 「ギルエルバスとコモンクロール」。NBCニュース。2013年4月4日。
^ 「それであなたは始める準備ができています」。
^ リサグリーン(2014年1月8日)。「2013年冬のクロールデータが利用可能になりました」。
^ 「スタートアップ-コモンクロールのギルエルバスとノバスピヴァック-TWiST#222」。今週のスタートアップ。2012年1月10日。
^ トムシモニート(2013年1月23日)。「ウェブ全体の無料データベースが次のグーグルを生み出すかもしれない」。MITテクノロジーレビュー。
^ Jennifer Zaino(2012年3月13日)。「アマゾンウェブサービスバケットに新しいデータを追加するためのコモンクロール」。セマンティックWeb。2014年7月1日にオリジナルからアーカイブされました。
^ Jennifer Zaino(2012年7月16日)。「CommonCrawlCorpus Updateにより、Webクロールデータがより効率的になり、ユーザーが探索しやすくなります」。セマンティックWeb。2014年8月12日にオリジナルからアーカイブされました。
^ Jennifer Zaino(2012年12月18日)。「Blekkoデータの寄付は、コモンクロールにとって大きなメリットです」。セマンティックWeb。2014年8月12日にオリジナルからアーカイブされました。
^ ジョーダンメンデルソン(2014年2月20日)。「コモンクロールのナッチへの移動」。コモンクロール。
^ ジョーダンメンデルソン(2013年11月27日)。「新しいクロールデータが利用可能になりました!」。コモンクロール。
^ ブラウン、トム; マン、ベンジャミン; ライダー、ニック; サブビア、メラニー; カプラン、ジャレド; Dhariwal、Prafulla; Neelakantan、Arvind; シャム、プラナフ; Sastry、Girish; アスケル、アマンダ; Agarwal、Sandhini(2020-06-01)。「言語モデルは少数のショット学習者です」。p。14. arXiv:2005.14165 。私たちのデータの大部分は、品質ベースのフィルタリングのみを使用した生のコモンクロールから派生しています。
^ ゲブル、ティムニット; モルゲンシュテルン、ジェイミー; ヴェッキオーネ、ブリアナ; ワートマンヴォーン、ジェニファー; ウォーラック、ハンナ; DauméIII、Hal; ケイト、クロフォード(2020年3月19日)。「データセットのデータシート」。arXiv:1803.09010 。
^ 「ブログ–コモンクロール」。
^ リサグリーン(2012年11月15日)。「NorvigWebデータサイエンス賞」。コモンクロール。
^ 「NorvigWebデータサイエンスアワード2014」。ライフサイエンスのためのオランダのTechcentre。2014年8月15日にオリジナルからアーカイブされました。

外部リンク
アメリカ合衆国、カリフォルニア州のコモンクロール
クローラー、ライブラリ、サンプルコードを含むコモンクロールGitHubリポジトリ
コモンクロールディスカッショングループ
コモンクロールブログ
 title=
「https://en.wikipedia.org/w/index.php?title=Common_Crawl&oldid=1062799889」
から取得”