Apache_Arrow
Apache Arrowは、列データを処理するデータ分析アプリケーションを開発するための言語に依存しない ソフトウェアフレームワークです。これには、最新のCPUおよびGPUハードウェアでの効率的な分析操作のために、フラットで階層的なデータを表すことができる、標準化された列指向のメモリ形式が含まれています。 これにより、ダイナミックランダムアクセスメモリのコスト、変動性、物理的制約など、大量のデータセットの処理の実現可能性を制限する要因が軽減または排除されます。
アパッチアロー
開発者
Apache Software Foundation
初回リリース
2016年10月10日; 4年前 (2016-10-10)
安定リリース
v5.0.0
/ 2021年7月29日 ; 2ヶ月前 (2021-07-29)
リポジトリ
https://github.com/apache/arrow
で書かれている
C、C ++、C#、Go、Java、JavaScript、MATLAB、Python、R、Ruby、Rust
タイプ
データ形式、アルゴリズム
ライセンス
Apacheライセンス2.0
Webサイト
矢印.apache .ORG
コンテンツ
1 相互運用性
2 アプリケーション
2.1 ApacheParquetおよびORCとの比較
3 ガバナンス
4 参考文献
5 外部リンク
相互運用性
矢印で使用できるApacheの寄木細工、Apacheのスパーク、numpyの、PySpark、パンダやその他のデータ処理ライブラリ。このプロジェクトには、C、C ++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby、およびRustで記述されたネイティブソフトウェアライブラリが含まれています。Arrowは、これらの言語とシステム間のシリアル化のオーバーヘッドなしに、ゼロコピー読み取りと高速データアクセスおよび交換を可能にします。
アプリケーション
Arrowは、分析、ゲノミクス、 、クラウドコンピューティングなど、さまざまな分野で使用されてきました。
ApacheParquetおよびORCとの比較
ApacheParquetとApacheORCは、ディスク上の列データ形式の一般的な例です。Arrowは、メモリ内のデータを処理するためのこれらの形式を補完するものとして設計されています。インメモリ処理のハードウェアリソースエンジニアリングのトレードオフは、オンディスクストレージに関連するトレードオフとは異なります。 ArrowおよびParquetプロジェクトには、2つの形式間でデータの読み取りと書き込みを可能にするライブラリが含まれています。
ガバナンス
Apache Arrowは、2016年2月17日にApache Software Foundationによって発表され、他のオープンソースデータ分析プロジェクトの開発者の連合によって開発が主導されました。 最初のコードベースとJavaライブラリーからのコードで播種したApacheのドリル。
参考文献
^ 「矢印Githubリリース」。
^ 「ApacheArrow5.0.0リリース」。
^ “ApacheArrowとKubernetesを使用した分散コンピューティング”。
^ Baer、Tony「ApacheArrow:アヒルを一列に並べる…または列」。アルファを求めています。
^ Baer、Tony「ApacheArrow:可能性のある小さなデータアクセラレータ」。ZDNet。
^ ホール、スーザン「ApacheArrowのデータの列レイアウトはHadoop、Sparkを加速する可能性があります」。新しいスタック。
^ Yegulalp、Serdar「ApacheArrowはビッグデータへのアクセスを高速化することを目的としています」。InfoWorld。
^ Tanveer Ahmad(2019)。「ArrowSAM:ApacheArrowフレームワークによるインメモリゲノミクスデータ処理」。bioRxiv:741843. DOI:10.1101 / 741843。
^ Dinsmore TW(2016)。「インメモリ分析」。インメモリ分析。で:破壊的な分析。エイプレス、バークレー、カリフォルニア州。pp。97–116。土井:10.1007 / 978-1-4842-1311-7_5。ISBN 978-1-4842-1312-4。
^ Versaci F、Pireddu L、Zanetti G(2016)。「スケーラブルなゲノミクス:生データからApache YARNでの整列された読み取りまで」(PDF)。ビッグデータに関するIEEE国際会議:1232–1241。
^ Maas M、AsanovićK、Kubiatowicz J(2017)。「ランタイムの復活:クラウド3.0時代の言語ランタイムシステムの再考」(PDF)。オペレーティングシステム(ACM)のホットトピックに関する第16回ワークショップの議事録:138–143。土井:10.1145 /3102980.3103003。
^ Le Dem、Julien。「ApacheArrowとApacheParquet:ディスク上とメモリ内の列データに異なるプロジェクトが必要な理由」。KDnuggets。
^ 「ApacheArrowとParquetおよびORC:列データ表現のために3番目のApacheプロジェクトが本当に必要ですか?」。2017-10-31。
^ 「PyArrow:ApacheParquet形式の読み取りと書き込み」。
^ 「トップレベルプロジェクトとしてApache®ソフトウェア財団発表アパッチアロー™」。Apache SoftwareFoundationブログ。
^ マーティン、アレクサンダーJ.「ApacheFoundationはApacheArrowをトップレベルのプロジェクトとして急いで出します」。レジスター。
^ 「ビッグデータは新しいオープンソースプロジェクトであるApacheArrowを取得します。分析ワークロードで100倍以上のパフォーマンス向上を提供します」と財団は述べています。2016-02-17。
^ Le Dem、Julien「ApacheArrowの最初のリリース」。SDタイムズ。
^ 「ApacheArrowを使用した列指向データ処理の将来に関するJulienLeDem」。
外部リンク
ApacheArrowプロジェクトのWebサイト
Apache ArrowGitHubプロジェクトのソースコード