Apache ArrowのC・Ruby・パッケージ関連を主に開発している須藤です。
RubyData Tokyo MeetupでApache ArrowのRubyまわりの最新情報を紹介しました。
関連リンク:
内容
(いつ頃か忘れましたが)前にApache ArrowのRubyまわりを紹介した時はデータ交換まわりの話がメインでした。それは、データ交換まわりの実装しかなかったからです。
しかし、最近はデータ処理まわりの実装も進んできたので、そのあたりのことも盛り込みました。たとえば、素のRubyの機能で数値演算する場合と、Numo::NArray
を使って数値演算する場合と、Gandiva(Apache Arrowの式処理モジュール)を使って数値演算する場合のコードとベンチマーク結果を紹介しました。
私のマシンで計測したところNumo::NArray
が一番高速でした。Numo::NArray
すごい!発表中、@sonotsさんがNumPyの方がさらに速いと思うけどねーと言いながら同じパターンをNumPyでも計測していました。計測したところ、NumPyよりもNumo::NArray
の方が速く、@naitohさんもその場で計測したところ、確かに速かったです。この内容はその後の@naitohさんの発表に盛り込まれています。発表をきっかけに新たな事実の発見が進むなんていい集まりですね!
他には最近Apache Arrowで実装が進んでいるCSVパーサーが速いよ!ということを自慢したりしました。
集まりに関して
今回の集まりはとてもいい集まりだなぁと思えるいい集まりでした。
@mrknさんがポジティブな話をするようになっていたのもよかったですし、Juliaバックエンド案は面白いなぁと思いました。
@shiro615さんのOSS GateワークショップでOSSの開発に参加しはじめて、Red Data Toolsで継続的にApache Arrowの開発に参加し続けて、この間コミッターになった、という話は感慨深かったです。OSS GateもRed Data Toolsもはじめてよかったな。
@hatappiさんがイベント中にRed ChainerのCumo対応ブランチをマージしていたのもよかったです。@sonotsさんの発表で変更の概要を聞いて、発表の後のコード懇親会で直接相談しながらマージ作業を進めていました。開発が進むなんて、なんていい集まりなんでしょう。
@sonotsさんはこのイベントがあったからCumo対応プルリクエストを作ったと言っていました。開発が進む集まり!
@colspanさんのMenoh-RubyとFluentdを使って推論サーバーを作る話は面白いなぁと思いました。なるほどなぁ。
Red Data ToolsとしてもMenohとMenoh-Rubyを応援していきたいので、いい感じに協力できないか少し相談しました。11月20日(火)の夜のOSS Gate東京ミートアップ for Red Data Tools in Speeeで続きを相談できそうです。
@v0droさんの発表でXND関連の理解が深まりました。調べないとなぁと思っていたんですよねぇ。型を文字列で定義するのは、いいのかな、悪いのかな。まだ判断できないんですが、面白いアプローチだなぁとは思いました。
Red Data ToolsとしてもXND関連の開発に協力していきたいな。
まとめ
2018年11月17日にRubyData Tokyo Meetupという開発が進むいい集まりがありました。
Rubyでもっといい感じにデータ処理できるようになるといいなぁ思った人は次のアクションとして以下を検討してみてください。
-
2018年11月20日(火)19:30開催のOSS Gate東京ミートアップ for Red Data Tools in Speeeに参加する
-
Red Data Toolsのチャットでなにから着手すればよさそうか相談する
-
2018年12月8日(土)13:30開催のApache Arrow東京ミートアップ2018に参加する
-
2018年12月11日(火)19:30開催のOSS Gate東京ミートアップ for Red Data Tools in Speeeに参加する