Categories: 未分類

Apache SystemDS

Apache_SystemDS

Apache SystemDS(以前のApache SystemML)は、SparkおよびHadoopクラスターに自動的にスケーリングする柔軟な機械学習システムです。SystemDSの際立った特徴は次のとおりです。
Rのような言語とPythonのような言語によるアルゴリズムのカスタマイズ性。
スタンドアロン、Sparkバッチ、Spark MLContext、Hadoopバッチ、JMLCなどの複数の実行モード。
効率とスケーラビリティの両方を確保するための、データとクラスターの特性に基づく自動最適化。 Apache SystemDS 開発者
Apache Software Foundation、IBM
初回リリース
2015年11月2日; 5年前 (2015-11-02)
安定リリース
2.0.0 / 2020年10月22日 ; 11ヶ月前  (2020-10-22)
リポジトリ
SystemDSリポジトリ
で書かれている
Java、Python、記述的機械学習、C
オペレーティング・システム
Linux、macOS、Windows
タイプ
機械学習、ディープラーニング、データサイエンス
ライセンス
Apacheライセンス2.0
Webサイト
systemds .apache .org

コンテンツ
1 歴史
2 主要技術
3 例
3.1 呼び出しスクリプト
4 改善点
5 貢献
6 も参照してください
7 参考文献
8 外部リンク

歴史
SystemMLは、IBMフェローのShivakumarVaithyanathanが率いるIBMAlmaden ResearchCenterの研究者によって2010年に作成されました。データサイエンティストは、小さなデータ用にRやPythonなどの言語で機械学習アルゴリズムを作成することが観察されました。ビッグデータにスケーリングするときが来たとき、システムプログラマーはScalaなどの言語でアルゴリズムをスケーリングする必要がありました。このプロセスには通常、反復ごとに数日または数週間が含まれ、ビッグデータを操作するようにアルゴリズムを変換するとエラーが発生します。SystemMLは、このプロセスを簡素化しようとしています。SystemMLの主な目標は、ビッグデータを操作するためにRまたはPythonのような言語で記述されたアルゴリズムを自動的にスケーリングし、エラーが発生しやすい複数の反復翻訳アプローチなしで同じ答えを生成することです。
2015年6月15日には、スパークサンフランシスコのサミットで、ベス・スミス、IBM解析のゼネラルマネージャーは、IBMがするIBMの主要な取り組みの一環としてオープンソース化SystemMLをしたことを発表しましたApacheのスパークやスパーク関連のプロジェクト。SystemMLは2015年8月27日にGitHubで公開され、2015年11月2日にApache Incubatorプロジェクトになりました。2017年5月17日、Apache Software Foundation Boardは、ApacheSystemMLの卒業をApacheトップレベルプロジェクトとして承認しました。

主要技術
以下は、SystemDSエンジンに組み込まれているテクノロジーの一部です。
大規模な機械学習のための圧縮線形代数
宣言型機械学習言語


次のコードスニペットは、入力マトリックスの主成分分析を行います {A}

  、を返します e I e v
e o {eigenvectors}

  そしてその e I e v l u e { textstyle eigenvalues}

 。
#PCA.dml#参照:https://github.com/apache/systemds/blob/master/scripts/algorithms/PCA.dml#L61N = nrow (A );D = ncol (A );#zスコアリング(センタリングとスケーリング)を実行しますA = スケール(A 、 中央== 1 、 スケール== 1 );#共分散行列 mu = colSums (A )/ N ;C = (t (A ) %*% A )/ (N -1 ) – (N / (N -1 ))* t (mu ) %*% mu ;#固有ベクトルと値を計算する[ evalues 、 evectors ] = 固有値(C )。

呼び出しスクリプト
spark-submit SystemDS.jar -f PCA.dml -nvargs INPUT = INPUT_DIR / pca-1000×1000 OUTPUT = OUTPUT_DIR / pca-1000×1000-model PROJDATA = 1 CENTER = 1 SCALE = 1

改善点
SystemDS 2.0.0は、新しい名前での最初のメジャーリリースです。このリリースには、主要なリファクタリング、いくつかの主要な機能、多数の改善と修正、およびエンドツーエンドのデータサイエンスライフサイクルをより適切にサポートするためのいくつかの実験的な機能が含まれています。それに加えて、このリリースでは、最新ではなく古くなっていないいくつかの機能も削除されています。
DMLボディ(スクリプトレベル)builtin関数の新しいメカニズム、およびデータクリーニング、拡張と特徴エンジニアリングの手法、新しいMLアルゴリズム、モデルのデバッグなど、データ前処理のための豊富な新しい組み込み関数。
連鎖方程式(MICE)による多変量代入による複数の代入やその他の手法、SMOTE、クラスの不均衡のオーバーサンプリング手法、前方および後方のNA充填、スキーマと長さの情報を使用したクリーニング、外れ値検出のサポートなど、データクリーニングのいくつかの方法が実装されています。標準偏差と四分位範囲、および関数従属性の発見を使用します。
ループの重複排除、完全および部分的な再利用、コンパイラ支援の再利用、再利用を容易にするためのいくつかの新しい書き換えのサポートを含む、系統のトレースと再利用のための完全なフレームワーク。
連合行列とフレームのサポートなど、新連合のランタイム・バックエンド、連合builtin(S transform-encode、decodeなど)。
圧縮パッケージをリファクタリングし、非可逆圧縮の量子化、バイナリセル演算、左行列乗算などの機能を追加します。
いくつかbuiltinのs、行列演算、フェデレーションテンソル、系統トレースをサポートする新しいPythonバインディング。
累積集計演算子のCUDA実装(cumsum、cumprod等)
スライスファインダーを使用した新しいモデルのデバッグ手法。
新しいテンソルデータモデル(さまざまな値型の基本テンソル、スキーマを使用したデータテンソル)
AWS用のクラウドデプロイメントスクリプトと、フェデレーションオペレーションをセットアップして開始するためのスクリプト。
パフォーマンスの改善parallel sort、gpu cum agg、append cbindなど
evalいくつか例を挙げると、新しく改善された書き換え、Sparkコンテキストの作成の削減、新しいフレームワーク、リスト操作、更新されたネイティブカーネルライブラリなど、さまざまなコンパイラとランタイムの改善。
jsonフレーム用の新しいデータリーダー/ライターおよびsqlデータソースとしてのサポート。
その他の改善:ドキュメントの改善、テストの改善、スクリプトの実行/リリース、パッケージの改善、systemds用のDockerコンテナー、ラムダ式のサポート、バグ修正。
MapReduceコンパイラとランタイムバックエンド、pydmlパーサー、Java-UDFフレームワーク、スクリプトレベルデバッガーを削除しました。
./scripts/algorithmsこれらのアルゴリズムは徐々にSystemDSbuiltinの一部になるため、非推奨になりました。

貢献
SystemDSは、コード、質問と回答、コミュニティの構築、または言葉の普及における貢献を歓迎します。寄稿者ガイドはhttps://github.com/apache/systemds/blob/master/CONTRIBUTING.mdで入手できます。

も参照してください
ディープラーニングソフトウェアの比較

参考文献
^ SystemDS、Apache。「SystemML1.2.0リリースノート」。systemds.apache.org 。2021-02-26を取得。

外部リンク
ApacheSystemMLのWebサイト IBMResearch-SystemML SystemMLの作成者でIBMフェローのShivVaithyanathanとの質疑応答
ビッグデータと機械学習のための万能翻訳機
SystemML:FredReissによる大規模な宣言型機械学習のプレゼンテーション
SystemML:MapReduceでの宣言型機械学習
SystemMLでの大規模機械学習のためのハイブリッド並列化戦略
SystemMLのオプティマイザー:大規模な機械学習プログラムの計画生成
IBMのSystemML機械学習システムがApacheIncubatorプロジェクトになります
IBMは機械学習技術をApacheSparkオープンソースコミュニティに寄付します
IBMのSystemMLがApacheIncubatorプロジェクトとして前進

admin

Share
Published by
admin

Recent Posts

アルトゥーリ・アールト

Artturi_Aalto 見…

3日 ago

アーサーシャレット

Arthur_Shallett…

3日 ago

Artyom Bogucharsky

Artyom_Boguchar…

3日 ago

アーツカタリスト

Arts_Catalyst A…

3日 ago

Asamardhuni Jivayatra

Asamardhuni_Jiv…

3日 ago