Apache Pinot


Apache_Pinot

Apacheのピノは、ある列指向、オープンソース、分散 データストアに書き込まれたJava。Pinotは、低レイテンシでOLAPクエリを実行するように設計されています。 不変のデータに対して、場合によってはリアルタイムのデータ取り込みを使用して、集計などの高速分析が必要な状況に適しています。 ピノから来る名ピノグレープさまざまな異なるワインを生産するために使用される液体に圧縮されたブドウの木。データベースの創設者は、さまざまな異なるファイル形式またはストリーミングデータソースからの膨大な量のデータを分析するためのメタファーとしてこの名前を選択しました。 Apache Pinot 原作者
キショアゴパラクリシュナ
翔福
開発者 Apache Pinot 安定リリース
0.7.1 / 2021年4月7日 ; 5ヶ月前  (2021-04-07)
リポジトリ
ピノリポジトリ
で書かれている Java オペレーティング・システム
クロスプラットフォーム
タイプ
配布
リアルタイム
列指向 データストア
ライセンス
Apacheライセンス2.0
Webサイト
ピノ.apache .ORG
Pinotは、エンジニアリングスタッフが、予測可能な低遅延、数秒でのデータの鮮度、フォールトトレランス、スケーラビリティなどのソーシャルネットワーキングサイトの要件を満たす既製のソリューションがないと判断した後、LinkedInで最初に作成されました。 Pinotは、Uber、 Microsoft、、Factualなどのテクノロジー企業による生産で使用されています。

コンテンツ
1 歴史
2 建築
2.1 クエリ管理 2.2 クラスター管理
3 特徴
4 も参照してください
5 参考文献
6 外部リンク

歴史
Pinotは、さまざまなユーザー向けおよびビジネス向けの製品を強化するために、2013年にLinkedInの内部プロジェクトとして開始されました。LinkedInでPinotを使用した最初の分析製品は、ソーシャルネットワーキングサイトの機能を再設計したもので、メンバーは自分のプロファイルを誰がリアルタイムで閲覧したかを確認できます。このプロジェクトは、2015年6月にApache 2.0ライセンスの下でオープンソース化され、2019年6月にLinkedInからApache SoftwareFoundationに寄贈されました。

建築
Architecture
  ApachePinotのアーキテクチャ図
Pinotはクラスター管理にApacheHelixを使用しています。Helixは、さまざまなコンポーネント内にエージェントとして組み込まれ、Apache ZooKeeperを使用して、クラスター全体の状態と正常性を調整および維持します。すべてのPinotサーバーとブローカーはHelixによって管理されています。Helixは、分散システムのパーティションとレプリカを管理するための汎用クラスター管理フレームワークです。

クエリ管理
クエリはブローカーによって受信されます。ブローカーは、セグメントからサーバーへのルーティングテーブルに対して要求をチェックし、リアルタイムサーバーとオフラインサーバーの間で要求を分散させます。

クラスター管理
Pinotは、クラスター管理にApacheHelixを活用しています。Helixは、分散システムで複製されパーティション化されたリソースを管理するためのクラスター管理フレームワークです。Helixは、Zookeeperを使用してクラスターの状態とメタデータを保存します。

特徴
ピノは、次のような同等のOLAPデータストアと同様の機能を共有するApacheのドルイド。 Druidと同様に、Pinotは、ランレングスや固定ビット長などのさまざまな圧縮スキームを備えた列指向データベースです。Pinotは、プラグイン可能なインデックス作成テクノロジ(Sorted Index、Bitmap Index、Inverted Index、Star-Tree Index、およびRange Index)をサポートします。これらは、主にPinotを他のOLAPデータストアと区別するものです。
Pinotは、Kafka、AWS Kinesisなどのストリームからのほぼリアルタイムの取り込みと、Hadoop、S3、Azure、GCSなどのソースからのバッチ取り込みをサポートしています。ほとんどの場合、他のすべてのOLAPデータストアおよびデータウェアハウジングソリューションと同様に、Pinotは、データに対する選択、集約、フィルタリング、グループ化、順序付け、個別のクエリをサポートするSQLのようなクエリ言語をサポートします。

も参照してください
image
 無料のオープンソースソフトウェアポータル
列指向DBMSのリスト
OLAPサーバーの比較

参考文献
^ Cui、Tingting; Peng、Lijun; Pardoe、David; 劉昆; Agarwal、Deepak; クマール、ディーパック「LinkedInでのソーシャル広告オークションのデータドリブン予約価格」。ADKDD’17の議事録。Adkdd’17。Association for Computing Machinery:1–7。土井:10.1145 /3124749.3124759。ISBN 9781450351942。S2CID  12327343。
^ ローザ、マルチェロラ(2021年)。高度な情報システム工学:第33回国際会議。シュプリンガーネイチャー。ISBN
 978-3-030-79382-1。
^ チン、フランシスYL; チェン、CLフィリップ; カーン、ラティフル; リー、キスン; 張、梁傑ビッグデータ– BigData 2018:第7回国際会議、サービス会議連盟の一部として開催、SCF 2018、米国ワシントン州シアトル、2018年6月25〜30日、議事録。スプリンガー。NS。153. ISBN
 978-3-319-94301-5。
^ イム、ジャンフランソワ; Gopalakrishna、Kishore; Subramaniam、Subbu; Shrivastava、Mayank; Tumbde、Adwait; 江、小天; ダイ、ジェニファー; イ・スンヒョン; パワール、ネハ; Li、Jialiang; アリンガンラム、ラヴィ(2018-05-27)。Pinot:5億3000万ユーザーのリアルタイムOLAP。Sigmod’18。コンピューティングマシナリー協会。pp。583–594。土井:10.1145 /3183713.3190661。ISBN
 9781450347037。S2CID  44083085。
^ 「ApacheSoftwareFoundationがApache®Pinot™をトップレベルプロジェクトとして発表」。blogs.apache.org。
^ ロジャーズ、ライアン; Subramaniam、Subbu; 鵬、ショーン; ダーフィー、デビッド; イ・スンヒョン; カンチャ、サントッシュクマール; Sahay、Shraddha; アハンマド、パルベス「LinkedInのAudienceEngagements API:大規模なプライバシー保護データ分析システム」。arXiv:2002.05839 。
^ Javadi、Seyyed Ahmad; グプタ、過酷; マンハス、ロビン; Sahu、Shweta; ガンジー、アンシュル。「EASY:ピノのテールレイテンシーを削減するための効率的なセグメント割り当て戦略」。2018 IEEE 38th International Conference on Distributed Computing Systems(ICDCS):1432–1437。土井:10.1109 /ICDCS.2018.00144。ISBN
 978-1-5386-6871-9。S2CID  21659844。
^ パワール、ネハ。「ピノは、Apacheインキュベーター結合」 アーカイブで2019年4月2日ウェイバックマシン、LinkedInのエンジニアリング2019年4月、01
^ Gopalakrishna、Kishore。「オープンソーシングピノ:リアルタイム分析の壁のスケーリング」。Engineering.linkedin.com。LinkedIn。
^ Yegulalp、Serdar(2015-06-11)。「LinkedInは別のSQL-on-Hadoopニッチを埋めます」。InfoWorld。
^ フー、ユペン; ソマン、チンメイ「Uberのリアルタイムデータインフラストラクチャ」。データ管理に関する2021年国際会議の議事録。Sigmod / Pods’21。Association for Computing Machinery:2503–2516。arXiv:2104.00087。土井:10.1145 /3448016.3457552。ISBN
 9781450383431。S2CID  232478317。
^ オルドネス、カルロス; ソン・イルグク; Anderst-Kotsis、Gabriele; Tjoa、A。Min; Khalil、IsmailBig Data Analytics and Knowledge Discovery:21st International Conference、DaWaK 2019、Linz、Austria、August 26–29、2019、Proceedings。スプリンガー。NS。170. ISBN
 978-3-030-27520-4。
^ Uttamchandani、Sandeepセルフサービスデータロードマップ。「O’ReillyMedia、Inc。」。ISBN
 978-1-4920-7520-2。

外部リンク
公式サイト
image