Apache Hadoop


Apache_Hadoop

ApacheのHadoopの(/ H ə D U P /)の集まりであるオープンソースのデータと計算を大量に含む問題を解決するために、多くのコンピュータのネットワークを使用して容易にするソフトウェアユーティリティ。MapReduceプログラミングモデルを使用してビッグデータを分散ストレージおよび処理するためのソフトウェアフレームワークを提供します。Hadoopは元々、コモディティハードウェアから構築されたコンピュータークラスター用に設計されましたが、これは今でも一般的に使用されています。 それ以来、ハイエンドハードウェアのクラスターでも使用されるようになりました。 Hadoopのすべてのモジュールは、ハードウェア障害が一般的に発生するものであり、フレームワークによって自動的に処理される必要があるという基本的な前提で設計されています。 Apache Hadoop 原作者
ダグ・カッティング、マイク・カファレラ
開発者
Apache Software Foundation
初回リリース
2006年4月1日; 15年前 (2006-04-01)
安定リリース .7.x 2.7.7 / 2018年5月31日; 3年前 (2018-05-31)
2.8.x
2.8.5 / 2018年9月15日; 3年前 (2018-09-15)
2.9.x
2.9.2 / 2018年11月9日; 2年前 (2018-11-09)
2.10.x
2.10.1 / 2020年9月21日; 12か月前 (2020-09-21)
3.1.x
3.1.4 / 2020年8月3日; 13か月前 (2020-08-03)
3.2.x
3.2.2 / 2021年1月9日; 8か月前 (2021-01-09)
3.3.x
3.3.1 / 2021年6月15日; 3か月前 (2021-06-15)
リポジトリ
Hadoopリポジトリ
で書かれている Java オペレーティング・システム
クロスプラットフォーム
タイプ
分散ファイルシステム
ライセンス
Apacheライセンス2.0
Webサイト
hadoop .apache .org
Apache Hadoopのコアは、Hadoop分散ファイルシステム(HDFS)と呼ばれるストレージ部分と、MapReduceプログラミングモデルである処理部分で構成されています。Hadoopはファイルを大きなブロックに分割し、クラスター内のノードに分散します。次に、パッケージ化されたコードをノードに転送して、データを並列処理します。このアプローチは、を利用してデータの局所性、のノードがデータを操作する場合、彼らはへのアクセス権を持っています。これにより、計算とデータが高速ネットワークを介して分散される並列ファイルシステムに依存する従来のスーパーコンピューターアーキテクチャよりも、データセットをより高速かつ効率的に処理できます。
基本のApacheHadoopフレームワークは、次のモジュールで構成されています。
Hadoop Common –他のHadoopモジュールに必要なライブラリとユーティリティが含まれています。
Hadoop分散ファイルシステム(HDFS) –コモディティマシンにデータを格納する分散ファイルシステムであり、クラスター全体で非常に高い総帯域幅を提供します。
Hadoop YARN –(2012年に導入)クラスター内のコンピューティングリソースを管理し、ユーザーのアプリケーションをスケジュールするためにそれらを使用するプラットフォーム。
Hadoop MapReduce –大規模なデータ処理のためのMapReduceプログラミングモデルの実装。
Hadoopオゾン–(2020年に導入)Hadoopのオブジェクトストア
用語のHadoopは、しばしば、ベースモジュールとサブモジュールとも両方のために使用される生態系、などのもしくはHadoopを一緒に上にインストールすることができ、追加のソフトウェア・パッケージ、または収集アパッチ豚、アパッチハイブ、アパッチHBaseの、Apacheのフェニックス、Apacheのスパーク、アパッチのZooKeeper、Clouderaのインパラ、Apacheの水路、アパッチSqoop、ApacheのOozie、およびApacheの嵐。
Apache HadoopのMapReduceおよびHDFSコンポーネントは、MapReduceおよびGoogleファイルシステムに関するGoogleの論文に触発されました。
Hadoopのフレームワーク自体は、主に書かれている、Javaプログラミング言語の一部のネイティブコードと、Cと、コマンドラインのように書かれたユーティリティシェルスクリプト。MapReduce Javaコードは一般的ですが、Hadoopストリーミングで任意のプログラミング言語を使用してマップを実装し、ユーザーのプログラムの一部を削減できます。 Hadoopエコシステムの他のプロジェクトは、より豊富なユーザーインターフェイスを公開しています。

コンテンツ
1 歴史
2 建築
2.1 ファイルシステム
2.1.1 Hadoop分散ファイルシステム
2.1.2 その他のファイルシステム
2.2 JobTrackerとTaskTracker:MapReduceエンジン
2.2.1 スケジューリング
2.2.1.1 公正なスケジューラ
2.2.1.2 キャパシティスケジューラ
2.3 Hadoop1とHadoop2の違い(YARN) 2.4 Hadoop2とHadoop3の違い 2.5 その他のアプリケーション
3 著名なユースケース
4 クラウドでのHadoopホスティング
5 商用サポート
5.1 ブランディング
6 論文
7 も参照してください
8 参考文献
9 参考文献
10 外部リンク

歴史
その共同創設者によるとダグ・カッティングとマイク・カファレラ、Hadoopのの起源は、2003年10月に発表されたGoogleのファイルシステムの紙だった 簡体データ処理:」MapReduceの-本論文では、Googleからの別のものを生み出しました大規模なクラスターで」。開発はApacheNutchプロジェクトで開始されましたが、2006年1月に新しいHadoopサブプロジェクトに移されました。 Yahoo!で働いていたDougCutting。当時、息子のおもちゃの象にちなんで名付けられました。 Nutchから除外された最初のコードは、HDFSの場合は約5,000行、MapReduceの場合は約6,000行のコードで構成されていました。
2006年3月、OwenO’MalleyはHadoopプロジェクトに追加した最初のコミッターでした。 Hadoop 0.1.0は2006年4月にリリースされました。プロジェクトへの貢献を通じて、進化を続けています。 Hadoop分散ファイルシステムの最初の設計ドキュメントは、2007年にDhrubaBorthakurによって作成されました。

建築
参照:
Hadoop分散ファイルシステム、
Apache HBase、および MapReduce Hadoopは、ファイルシステムおよびオペレーティングシステムレベルの抽象化を提供するHadoop Commonパッケージ、MapReduceエンジン(MapReduce / MR1またはYARN / MR2のいずれか)、およびHadoop分散ファイルシステム(HDFS)で構成されます。Hadoop Commonパッケージには、Hadoopの起動に必要なJavaアーカイブ(JAR)ファイルとスクリプトが含まれています。
作業を効果的にスケジュールするために、すべてのHadoop互換ファイルシステムは、ラックの名前、具体的にはワーカーノードが存在するネットワークスイッチであるロケーション認識を提供する必要がHadoopアプリケーションは、この情報を使用して、データが存在するノードでコードを実行し、それが失敗した場合は、同じラック/スイッチでコードを実行して、バックボーントラフィックを削減できます。HDFSは、複数のラック間でデータの冗長性を確保するためにデータを複製するときにこの方法を使用します。このアプローチにより、ラックの停電やスイッチの障害による影響が軽減されます。これらのハードウェア障害のいずれかが発生した場合、データは引き続き利用可能です。
Hadoop
  マルチノードHadoopクラスター
小さなHadoopクラスターには、単一のマスターノードと複数のワーカーノードが含まれます。マスターノードは、ジョブトラッカー、タスクトラッカー、NameNode、およびDataNodeで構成されます。スレーブノードまたはワーカーノードは、DataNodeとTaskTrackerの両方として機能しますが、データのみと計算のみのワーカーノードを持つこともできます。これらは通常、非標準のアプリケーションでのみ使用されます。
Hadoopには、Javaランタイム環境(JRE)1.6以降が必要です。標準の起動スクリプトとシャットダウンスクリプトでは、クラスター内のノード間にSecure Shell(SSH)を設定する必要が
大規模なクラスターでは、HDFSノードはファイルシステムインデックスをホストする専用のNameNodeサーバーと、名前ノードのメモリ構造のスナップショットを生成できるセカンダリNameNodeを介して管理されるため、ファイルシステムの破損やデータの損失を防ぐことができます。同様に、スタンドアロンのJobTrackerサーバーは、ノード間のジョブスケジューリングを管理できます。Hadoop MapReduceが代替ファイルシステムで使用される場合、HDFSのNameNode、セカンダリNameNode、およびDataNodeアーキテクチャは、ファイルシステム固有の同等のものに置き換えられます。

ファイルシステム

Hadoop分散ファイルシステム
Hadoopの分散ファイルシステム(HDFS)は、分散、スケーラブルでポータブルであり、ファイルシステムのHadoopフレームワークのためのJavaで書かれました。POSIXに準拠していないため、代わりにデータストアであると考える人もいますが、他のファイルシステムと同様のシェルコマンドとJavaアプリケーションプログラミングインターフェイス(API)メソッドを提供します。 HadoopインスタンスはHDFSとMapReduceに分けられます。HDFSはデータの保存に使用され、MapReduceはデータの処理に使用されます。HDFSには、次の5つのサービスが
名前ノード
セカンダリネームノード
ジョブトラッカー
データノード
タスクトラッカー
上位3つはマスターサービス/デーモン/ノードで、下位2つはスレーブサービスです。マスターサービスは相互に通信でき、スレーブサービスも相互に通信できます。名前ノードはマスターノードであり、データノードは対応するスレーブノードであり、相互に通信できます。
ネームノード: HDFSは、マスターノードと呼ばれる1つのネームノードのみで構成されます。マスターノードは、ファイルを追跡し、ファイルシステムを管理し、その中に保存されているすべてのデータのメタデータを保持できます。特に、名前ノードには、ブロック数の詳細、データが格納されているデータノードの場所、レプリケーションが格納されている場所、およびその他の詳細が含まれています。ネームノードはクライアントと直接接触しています。
データノード:データノードは、データをブロックとして格納します。これはスレーブノードとも呼ばれ、実際のデータをHDFSに格納します。HDFSはクライアントの読み取りと書き込みを担当します。これらはスレーブデーモンです。すべてのデータノードは、ハートビートメッセージを3秒ごとに名前ノードに送信し、それが生きていることを伝えます。このように、名前ノードがデータノードから2分間ハートビートを受信しない場合、そのデータノードは停止していると見なされ、他のデータノードでブロックレプリケーションのプロセスが開始されます。
セカンダリネームノード:これは、ネームノードにあるファイルシステムメタデータのチェックポイントを処理するためだけのものです。これは、チェックポイントノードとも呼ばれます。これは、名前ノードのヘルパーノードです。セカンダリネームノードは、ネームノードにfsimage&editlogファイルを作成して送信するように指示します。このファイル上で、圧縮されたfsimageファイルがセカンダリネームノードによって作成されます。
Job Tracker: Job Trackerは、クライアントからMapReduceの実行要求を受け取ります。ジョブトラッカーは、処理で使用されるデータの場所を知るために名前ノードと通信します。ネームノードは、必要な処理データのメタデータで応答します。
タスクトラッカー:これはジョブトラッカーのスレーブノードであり、ジョブトラッカーからタスクを取得します。また、ジョブトラッカーからコードを受け取ります。タスクトラッカーはコードを取得してファイルに適用します。そのコードをファイルに適用するプロセスは、マッパーと呼ばれます。
Hadoopクラスターには、名目上、単一のネームノードとデータノードのクラスターがありますが、その重要性のために、ネームノードには冗長オプションを使用できます。各データノードは、HDFSに固有のブロックプロトコルを使用して、ネットワークを介してデータのブロックを提供します。ファイルシステムは、通信にTCP / IP ソケットを使用します。クライアントは、リモートプロシージャコール(RPC)を使用して相互に通信します。
HDFSは、複数のマシンにまたがる大きなファイル(通常はギガバイトからテラバイトの範囲)を保存します。複数のホスト間でデータを複製することで信頼性を実現するため、理論的にはホスト上に独立ディスク(RAID)ストレージの冗長アレイは必要ありません(ただし、入出力(I / O)パフォーマンスを向上させるために、一部のRAID構成は引き続き役立ちます)。デフォルトのレプリケーション値3では、データは3つのノードに保存されます。2つは同じラックに、もう1つは別のラックに保存されます。データノードは相互に通信して、データのバランスを取り直したり、コピーを移動したり、データのレプリケーションを高く維持したりできます。POSIXファイルシステムの要件がHadoopアプリケーションの目標とは異なるため、HDFSはPOSIXに完全には準拠し完全にPOSIXに準拠したファイルシステムがないことのトレードオフは、データスループットのパフォーマンスの向上と、Appendなどの非POSIX操作のサポートです。
2012年5月、高可用性機能がHDFSに追加され、NameNodeと呼ばれるメインメタデータサーバーが手動でバックアップにフェイルオーバーできるようになりました。プロジェクトは、自動フェイルオーバーの開発も開始しました。
HDFSファイルシステムには、いわゆるセカンダリネームノードが含まれています。これは誤解を招く用語であり、プライマリネームノードがオフラインになったときにバックアップネームノードとして誤って解釈される可能性が実際、セカンダリネームノードは定期的にプライマリネームノードに接続し、プライマリネームノードのディレクトリ情報のスナップショットを作成します。このスナップショットは、システムがローカルディレクトリまたはリモートディレクトリに保存します。これらのチェックポイントされたイメージを使用すると、ファイルシステムアクションのジャーナル全体を再生せずに、障害が発生したプライマリネームノードを再起動し、ログを編集して最新のディレクトリ構造を作成できます。namenodeはメタデータの保存と管理のための単一のポイントであるため、膨大な数のファイル、特に多数の小さなファイルをサポートするためのボトルネックになる可能性が新たに追加されたHDFSフェデレーションは、別々の名前空間によって提供される複数の名前空間を許可することにより、この問題にある程度取り組むことを目的としています。さらに、HDFSには、小さなファイルの問題、スケーラビリティの問題、単一障害点(SPoF)、巨大なメタデータ要求のボトルネックなど、いくつかの問題がHDFSを使用する利点の1つは、ジョブトラッカーとタスクトラッカーの間のデータ認識です。ジョブトラッカーは、データの場所を認識して、ジョブをタスクトラッカーにマップまたは削減します。例:ノードAにデータ(a、b、c)が含まれ、ノードXにデータ(x、y、z)が含まれる場合、ジョブトラッカーはノードAに、(a、b、c)とノードでマップまたはタスクの削減を実行するようにスケジュールします。 Xは、(x、y、z)でマップまたは削減タスクを実行するようにスケジュールされます。これにより、ネットワークを通過するトラフィックの量が減り、不要なデータ転送が防止されます。Hadoopを他のファイルシステムで使用する場合、この利点が常に利用できるとは限りません。これは、データ集約型のジョブで示されているように、ジョブの完了時間に大きな影響を与える可能性が
HDFSはほとんど不変のファイル用に設計されており、同時書き込み操作を必要とするシステムには適さない場合が
HDFSは、Linuxおよびその他のUnixシステム上のFilesystem in Userspace(FUSE)仮想ファイルシステムに直接マウントできます。
ファイルアクセスは、ネイティブJavaAPIであるThriftAPI(C ++、Java、Python、PHP、Ruby、Erlang、Perl、Haskell、C#、Cocoa、Smalltalk、OCamlなどの多くの言語でクライアントを生成します)を介して実現できます。コマンドラインインターフェイス、HDFS-UIのWebアプリケーション経由HTTP、またはサードパーティ製のネットワーククライアントライブラリを経由して。
HDFSは、さまざまなハードウェアプラットフォーム間での移植性と、基盤となるさまざまなオペレーティングシステムとの互換性のために設計されています。Java実装では、HDFSが実行されているプラ​​ットフォーム専用の機能を使用できないため、HDFS設計では移植性の制限が発生し、パフォーマンスのボトルネックが発生します。エンタープライズレベルのインフラストラクチャへの広範な統合により、HDFSのパフォーマンスを大規模に監視することがますます重要な問題になっています。エンドツーエンドのパフォーマンスを監視するには、データノード、ネームノード、および基盤となるオペレーティングシステムからのメトリックを追跡する必要が現在、Hortonworks、Cloudera、Datadogなど、HDFSのパフォーマンスを追跡するための監視プラットフォームがいくつか

その他のファイルシステム
Hadoopは、file://URLを使用するだけで、基盤となるオペレーティングシステムによってマウントできる分散ファイルシステムと直接連携します。ただし、これには代償が伴います。つまり、局所性が失われます。ネットワークトラフィックを削減するために、Hadoopは、データに最も近いサーバーを知る必要がこれは、Hadoop固有のファイルシステムブリッジが提供できる情報です。
2011年5月、ApacheHadoopにバンドルされているサポートされているファイルシステムのリストは次のとおりです。
HDFS:Hadoop独自のラック対応ファイルシステム。これは、数十ペタバイトのストレージに拡張できるように設計されており、基盤となるオペレーティングシステムのファイルシステム上で実行されます。
Apache Hadoop Ozone:数十億の小さなファイル用に最適化されたHDFS互換のオブジェクトストアターゲティング。
FTPファイルシステム:これにより、すべてのデータがリモートアクセス可能なFTPサーバーに保存されます。
Amazon S3(Simple Storage Service)オブジェクトストレージ:これは、Amazon Elastic ComputeCloudサーバーオンデマンドインフラストラクチャでホストされているクラスターを対象としています。このファイルシステムはすべてリモートであるため、ラック認識はありません。
Windows Azureストレージブロブ(WASB)ファイルシステム:これはHDFSの拡張機能であり、Hadoopのディストリビューションが、データをクラスターに永続的に移動することなく、Azureブロブストア内のデータにアクセスできるようにします。
サードパーティのファイルシステムブリッジも多数作成されていますが、現在Hadoopディストリビューションに含まれているものはありません。ただし、Hadoopの一部の商用ディストリビューションには、デフォルトとして代替ファイルシステム(具体的にはIBMとMapR)が付属しています。
2009年、IBMは、IBM General Parallel FileSystem上でのHadoopの実行について議論しました。ソースコードは2009年10月に公開されました。
2010年4月、Parascaleは、Parascaleファイルシステムに対してHadoopを実行するためのソースコードを公開しました。
2010年4月、Appistryは、独自のCloudIQStorage製品で使用するためのHadoopファイルシステムドライバーをリリースしました。
2010年6月、HPはロケーション対応のIBRIXFusionファイルシステムドライバーについて議論しました。
2011年5月、MapR Technologies Inc.は、Hadoopの代替ファイルシステムであるMapR FSの提供を発表しました。これにより、HDFSファイルシステムが完全なランダムアクセス読み取り/書き込みファイルシステムに置き換えられました。

JobTrackerとTaskTracker:MapReduceエンジン MapReduce ファイルシステムの上には、クライアントアプリケーションがMapReduceジョブを送信する1つのJobTrackerで構成されるMapReduceエンジンがJobTrackerは、クラスター内の使用可能なTaskTrackerノードに作業をプッシュし、作業を可能な限りデータに近づけるように努めます。ラック対応ファイルシステムを使用すると、JobTrackerは、データが含まれているノードと、近くにある他のマシンを認識します。データが存在する実際のノードで作業をホストできない場合は、同じラック内のノードが優先されます。これにより、メインバックボーンネットワークのネットワークトラフィックが減少します。TaskTrackerが失敗またはタイムアウトした場合、ジョブのその部分が再スケジュールされます。各ノードのTaskTrackerは、実行中のジョブがJVMをクラッシュさせた場合に、TaskTracker自体が失敗するのを防ぐために、個別のJava仮想マシン(JVM)プロセスを生成します。TaskTrackerからJobTrackerにハートビートが数分ごとに送信され、ステータスが確認されます。Job TrackerとTaskTrackerのステータスと情報は、Jettyによって公開され、Webブラウザーから表示できます。
このアプローチの既知の制限は次のとおりです。
TaskTrackersへの作業の割り当ては非常に簡単です。すべてのTaskTrackerには、使用可能なスロットがいくつかあります(「4スロット」など)。すべてのアクティブなマップまたは削減タスクは1つのスロットを占有します。Job Trackerは、使用可能なスロットを持つデータに最も近いトラッカーに作業を割り当てます。割り当てられたマシンの現在のシステム負荷、したがって実際の可用性は考慮されません。
1つのTaskTrackerが非常に遅い場合、MapReduceジョブ全体が遅れる可能性が特に、すべてが最も遅いタスクを待機する可能性がある最後の方に遅れる可能性がただし、投機的実行を有効にすると、1つのタスクを複数のスレーブノードで実行できます。

スケジューリング
デフォルトでは、HadoopはFIFOスケジューリングを使用し、オプションで5つのスケジューリング優先順位を使用してワークキューからジョブをスケジュールします。バージョン0.19では、ジョブスケジューラがJobTrackerからリファクタリングされ、代替スケジューラ(次に説明するFairスケジューラやCapacityスケジューラなど)を使用する機能が追加されました。

公正なスケジューラ
フェアスケジューラはFacebookによって開発されました。公正なスケジューラーの目標は、小さなジョブには高速の応答時間を提供し、本番ジョブにはサービス品質(QoS)を提供することです。フェアスケジューラには3つの基本的な概念が
ジョブはプールにグループ化されます。
各プールには、保証された最小シェアが割り当てられます。
過剰な容量はジョブ間で分割されます。
デフォルトでは、分類されていないジョブはデフォルトのプールに入ります。プールは、マップスロットの最小数、スロットの削減、および実行中のジョブの数の制限を指定する必要が

キャパシティスケジューラ
キャパシティスケジューラはYahooによって開発されました。キャパシティスケジューラは、フェアスケジューラの機能と同様のいくつかの機能をサポートします。
キューには、総リソース容量の一部が割り当てられます。
空きリソースは、合計容量を超えてキューに割り当てられます。
キュー内では、優先度の高いジョブがキューのリソースにアクセスできます。
ジョブが実行されると、プリエンプションはありません。

Hadoop1とHadoop2の違い(YARN)
Hadoop1とHadoop2の最大の違いは、Hadoopの最初のバージョンでMapReduceエンジンに取って代わったYARN(Yet Another Resource Negotiator)の追加です。YARNは、さまざまなアプリケーションにリソースを効果的に割り当てるように努めています。2つのデーモンを実行し、2つの異なるタスクを処理します。アプリケーションへのジョブ追跡とリソース割り当てを行うリソースマネージャーと、実行の進行状況を監視するアプリケーションマスターです。

Hadoop2とHadoop3の違い
単一ありながら例えばHadoopの3により提供される重要な特徴は、ある名前ノードのHadoop 2において、Hadoopの3不良の問題の一点を解決し、複数の名前のノードを有する可能。
Hadoop 3には、Dockerの原則で動作するコンテナーがあり、アプリケーション開発に費やす時間を削減します。
最大の変更点の1つは、Hadoop3がイレイジャーコーディングによってストレージのオーバーヘッドを削減することです。
また、Hadoop 3では、クラスター内でGPUハードウェアを使用できます。これは、Hadoopクラスターでディープラーニングアルゴリズムを実行するための非常に大きなメリットです。

その他のアプリケーション
HDFSはMapReduceジョブに制限され他のアプリケーションにも使用でき、その多くはApacheで開発中です。このリストには、HBaseデータベース、Apache Mahout 機械学習システム、およびApacheHive データウェアハウスが含まれています。理論的には、Hadoopは、リアルタイムではなくバッチ指向で、非常にデータ集約的で、並列処理の恩恵を受けるあらゆるワークロードに使用できます。またのような、リアルタイムシステムを補完するために使用することができますラムダアーキテクチャ、Apacheの嵐、FLINK、およびスパークストリーミング。
Hadoopの商用アプリケーションには次のものが
ログまたはクリックストリーム分析
マーケティング分析
機械学習とデータマイニング
画像処理
XMLメッセージ処理
Webクロール
リレーショナルデータや表形式のデータを含む、コンプライアンスのためのアーカイブ作業

著名なユースケース
2008年2月19日、Yahoo!Inc.は、世界最大のHadoop本番アプリケーションであると彼らが主張したものを発表しました。Yahoo! Search Webmapは、10,000を超えるコアを備えたLinuxクラスターで実行され、すべてのYahoo!で使用されるデータを生成するHadoopアプリケーションです。ウェブ検索クエリ。 Yahoo!には複数のHadoopクラスターがまた、HDFSファイルシステムやMapReduceジョブが複数のデータセンターに分割されることはありません。すべてのHadoopクラスターノードは、Hadoopディストリビューションを含むLinuxイメージをブートストラップします。クラスターが実行する作業には、Yahoo!のインデックス計算が含まれることが知られています。検索エンジン。2009年6月、Yahoo!Hadoopバージョンのソースコードをオープンソースコミュニティで利用できるようにしました。
2010年、Facebookは、21PBのストレージを備えた世界最大のHadoopクラスターを所有していると主張しました。 2012年6月に、彼らはデータが100 PBに増加したことを発表し、その年の後半に、データが1日あたり約半分のPB増加したことを発表しました。
2013年の時点で、Hadoopの採用が広まりました。Fortune50企業の半数以上がHadoopを使用していました。

クラウドでのHadoopホスティング
Hadoopは、従来のオンサイトデータセンターとクラウドにデプロイできます。クラウドにより、組織はハードウェアや特定のセットアップの専門知識を習得することなく、Hadoopをデプロイできます。

商用サポート
多くの企業がHadoopの商用実装またはサポートを提供しています。

ブランディング
Apache Software Foundationは、ApacheHadoopプロジェクトによって公式にリリースされたソフトウェアのみがApacheHadoopまたはApacheHadoopのディストリビューションと呼ばれることができると述べています。他のベンダーの製品や派生物の命名、および「互換性のある」という用語は、Hadoop開発者コミュニティ内で多少議論の余地が

論文
一部の論文は、Hadoopとビッグデータ処理の誕生と成長に影響を与えました。これらのいくつかは次のとおりです。
Jeffrey Dean、Sanjay Ghemawat(2004)MapReduce:大規模クラスターでの簡略化されたデータ処理、Google。このペーパーは、Map-Reduceフレームワークのオープンソース実装を開発するようにDougCuttingに影響を与えました。彼は息子のおもちゃの象にちなんで、それをHadoopと名付けました。
Michael Franklin、Alon Halevy、David Maier(2005)データベースからデータスペースへ:情報管理の新しい抽象化。著者は、ストレージシステムがすべてのデータ形式を受け入れ、ストレージシステムのデータの理解に基づいて進化するデータアクセス用のAPIを提供する必要性を強調しています。
フェイチャンら。(2006)Bigtable:構造化データ用の分散ストレージシステム、Google。
ロバート・カルマン他 (2008)H-store:高性能の分散型メインメモリトランザクション処理システム

も参照してください
image
 無料のオープンソースソフトウェアポータル
Apache Accumulo –セキュアBigtable
Apache Cassandra、Hadoopからのアクセスをサポートする列指向データベース
Apache CouchDB、ドキュメントにJSON、MapReduceクエリにJavaScript、APIに通常のHTTPを使用するデータベース
Apache HCatalog、Hadoopのテーブルおよびストレージ管理レイヤー
ビッグデータ
データ集約型コンピューティング
HPCC – LexisNexis RiskSolutionsハイパフォーマンスコンピューティングクラスター
Hypertable –HBaseの代替
セクター/スフィア–オープンソースの分散ストレージと処理
リソース管理のためのシンプルなLinuxユーティリティ

参考文献
^ 「Hadoopリリース」。apache.org。Apache SoftwareFoundation 。
^ “”ApacheHadoop”” 。
^ 裁判官、ピーター「ダグカッティング:ビッグデータはバブルではない」。Silicon.co.uk 。
^ ウッディー、アレックス「IBMPowerでHadoopを使用する理由」。datanami.com。Datanami 。
^ ヘムソス、ニコール「CrayがHadoopをHPC空域に起動」。hpcwire.com 。
^ 「ApacheHadoopへようこそ!」。hadoop.apache.org 。
^ 「Hadoop分散ファイルシステム(HDFS)とは何ですか?」。ibm.com。IBM 。
^ マラク、マイケル「データの局所性:HPC対Hadoop対Spark」。datascienceassn.org。データサイエンス協会。
^ 王、燕洞; ゴールドストーン、ロビン; Yu、Weikuan; 王、テン。「HPCシステムでのメモリ常駐MapReduceの特性評価と最適化」。2014 IEEE 28th International Parallel and Distributed ProcessingSymposium。IEEE。pp。799–808。土井:10.1109 /IPDPS.2014.87。ISBN  978-1-4799-3800-1。S2CID  11157612。
^ 「リソース(Apache Hadoop Main 2.5.1 API)」。apache.org。Apache SoftwareFoundation。
^ マーシー、アルン「ApacheHadoopYARN –コンセプトとアプリケーション」。hortonworks.com。Hortonworks 。
^ 「継続性はHadoopエコシステム内のビッグデータアプリケーション開発に火をつけるために1000万ドルのシリーズラウンドを調達します」。Finance.yahoo.com。Marketwired。
^ 「Hadoop関連のプロジェクト」。Hadoop.apache.org 。
^ データサイエンスとビッグデータ分析:データの発見、分析、視覚化、提示。ジョンワイリー&サンズ。p。300. ISBN  9781118876220。
^ 「 HadoopとPerlを使った冒険」。Mail-archive.com。
^ カッティング、マイク; カファレラ、ベン; ロリカ、ダグ「ApacheHadoopの次の10年」。オライリーメディア。
^ ゲマワット、サンジャイ; ゴビオフ、ハワード; Leung、Shun-Tak(2003)。「Googleファイルシステム」:20–43。
^ ディーン、ジェフリー; ゲマワット、サンジャイ(2004)。「MapReduce:大規模クラスターでの簡略化されたデータ処理」:137–150。
^ カッティング、ダグ「新しいメーリングリストのリクエスト:hadoop」。issues.apache.org。Lucene PMCは、Nutchの一部をHadoopという名前の新しいサブプロジェクトに分割することに投票しました。
^ ヴァンス、アシュリー「無料のソフトウェアプログラムであるHadoopは、検索以外の用途も見つけます」。ニューヨークタイムズ。
^ カッティング、ダグ「投票:HadoopコミッターとしてOwenO’Malleyを追加してください」。hadoop-common-dev(メーリングリスト)。
^ 「/ dist / hadoop / coreのインデックス」。archive.apache.org 。
^ 「私達は誰ですか」。hadoop.apache.org 。
^ Borthakur、Dhruba(2006)。「Hadoop分散ファイルシステム:アーキテクチャと設計」(PDF)。ApacheHadoopコードリポジトリ。
^ Chouraria、過酷「MR2とYARNの簡単な説明」。Cloudera.com。
^ 「HDFSユーザーガイド」。Hadoop.apache.org 。
^ 「UbuntuLinuxシステム(マルチノードクラスター)でのHadoopの実行」。
^ 「UbuntuLinux(シングルノードクラスター)でのHadoopの実行」。
^ エヴァンス、クリス。「ビッグデータストレージ:Hadoopストレージの基本」。computerweekly.com。ComputerWeekly 。HDFSは、従来の意味でのファイルシステムではなく、通常、ユーザーが表示できるように直接マウントされることはありません。
^ Roos、Dirk。「Hadoopファイルシステムコマンドを使用したファイルの管理」。dummies.com。ダミーのために。
^ バララーマ。「初心者向けのビッグデータHadoopチュートリアル」。www.gyansetu.in 。
^ 「アーカイブされたコピー」。
^ 「HDFSアーキテクチャ」。
^ Pessach、Yaniv(2013)。「分散ストレージ」(分散ストレージ:概念、アルゴリズム、および実装編)。OL 25423189M。   ^ 「バージョン2.0は手動フェイルオーバーを提供し、自動フェイルオーバーに取り組んでいます」。Hadoop.apache.org 。
^ 「異種Hadoopクラスターでのデータ配置によるMapReduceのパフォーマンスの向上」(PDF)。Eng.auburn.ed。2010年4月。
^ 「HDFSのマウント」。
^ シェーファー、ジェフリー; リクスナー、スコット; コックス、アラン。「Hadoop分散ファイルシステム:移植性とパフォーマンスのバランスをとる」(PDF)。ライス大学。
^ Mouzakitis、Evan「Hadoopパフォーマンスメトリックを収集する方法」。
^ 「HDFSユーザーガイド–ラック認識」。Hadoop.apache.org 。
^ 「クラウド分析:ストレージスタックを本当に再発明する必要がありますか?」(PDF)。IBM。2009年6月。
^ 「HADOOP-6330:HadoopファイルシステムインターフェースのIBM General Parallel FileSystem実装の統合」。IBM。
^ 「HADOOP-6704:Parascaleファイルシステムのサポートを追加」。パラスケール。
^ 「CloudIQストレージを備えたHDFS」。Appistry、Inc。
^ 「高可用性Hadoop」。HP。
^ 「コマンドガイド」。
^ 「JobTrackerからスケジューラーをリファクタリングする」。HadoopCommon。Apache SoftwareFoundation 。
^ ジョーンズ、M。ティム「Hadoopでのスケジューリング」。ibm.com。IBM 。
^ 「HadoopFairScheduler Design Document」(PDF)。apache.org 。
^ 「CapacitySchedulerガイド」。Hadoop.apache.org 。
^ 「ApacheHadoop3がApacheHadoop2よりも価値を高める方法」。hortonworks.com。
^ チンタパル、サンケット; ダギット、デレク; エヴァンス、ボビー; ファリヴァー、レザ; グレイブス、トーマス; ホルダーボー、マーク; 劉、卓; ヌスバウム、カイル; パティル、キショールクマール; 鵬、ボヤンジェリー; Poulosky、Paul。「ベンチマークストリーミング計算エンジン:ストーム、フリンク、スパークストリーミング」。2016 IEEE International Parallel and Distributed Processing Symposium Workshops(IPDPSW)。IEEE。pp。1789–1792。土井:10.1109 /IPDPSW.2016.138。ISBN  978-1-5090-3682-0。S2CID  2180634。
^ “” “” 30以上の企業がHadoopをどのように使用しているか “”、DBMS2で””。Dbms2.com。
^ 「Yahoo!が世界最大のHadoopプロダクションアプリケーションを発表」。Yahoo。
^ 「Yahoo!でのHadoopと分散コンピューティング」。Yahoo!。
^ 「HDFS:Facebookには世界最大のHadoopクラスターがあります!」。Hadoopblog.blogspot.com。
^ 「内部:NamenodeとAvatarnodeを使用したHadoop分散ファイルシステムの信頼性」。Facebook 。
^ 「内部:Coronaを使用してMapReduceジョブをより効率的にスケジュールする」。Facebook 。
^ 「AltiorのAltraSTAR– HadoopストレージアクセラレータおよびオプティマイザがCDH4(Apache Hadoopバージョン4を含むClouderaのディストリビューション)で認定されました」(プレスリリース)。ニュージャージー州イートンタウン:Altior Inc. 2012年12月18日。
^ 「Hadoop-MicrosoftAzure」。azure.microsoft.com 。
^ 「Hadoop」。Azure.microsoft.com 。
^ 「Hadoopイノベーションのペースが加速しなければならない理由」。Gigaom.com。
^ 「Hadoopの定義」。Wiki.apache.org。
^ 「Hadoop互換性の定義:再検討」。Mail-archives.apache.org。
^ 「ApacheAccumuloユーザーマニュアル:セキュリティ」。apache.org。Apache SoftwareFoundation 。

参考文献
ラム、チャックHadoop in Action(第1版)。マニング出版物。NS。325. ISBN 978-1-935-18219-1。
ヴェナー、ジェイソンPro Hadoop(第1版)。押してNS。440. ISBN 978-1-430-21942-2。取り出さ年7月3 2009年。
ホワイト、トムHadoop:決定的なガイド(第1版)。オライリーメディア。NS。524. ISBN 978-0-596-52197-4。
Vohra、Deepak。実用的なHadoopエコシステム:Hadoop関連のフレームワークとツールの決定的なガイド(第1版)。押してNS。429. ISBN 978-1-4842-2199-0。
Wiktorski、Tomasz。データ集約型システム。スイス、シャム:スプリンガー。ISBN 978-3-030-04603-3。

外部リンク
公式サイト
image   image