SentencePieceは、言語に依存することなく学習データから文章をトークナイズすることができるものです。
MeCabでは言語に依存した辞書が必要でしたが、SentencePieceは言語非依存なので、辞書が不要になります。
SentencePieceについて詳しくは開発者による記事があるのでそちらを参照されると理解がより深まるでしょう。
一方のfastTextは文書から学習してテキストを分類し、類似する単語を単語の類似度を計算することができます。
類似度をうまくつかえば、似たような文章をサジェストすることができそうです。
どちらもデータを学習させて活用するためのものですが、SentencePieceやfastTextのことを知って、ちょっと試そうとするにもやや手間が必要でした。これまではソースコードを取得してコンパイルしたりする手順が必要だったからです。
今後はSentencePieceやfastTextをEPELのパッケージとして簡単にインストールできるようになります。ただし、まだepel-testingリポジトリからで、epelリポジトリからインストールできるようになるのはしばらく(2週間ほど)先になる見込みです。
epelリポジトリにパッケージが入ると以下のように簡単にSentencePieceやfastTextをパッケージでインストールできるようになります。
$ sudo yum install epel-release
$ sudo yum update
$ sudo yum install fasttext-tools
$ sudo yum install sentencepiece-tools
冒頭で述べたように、SentencePieceやfastTextをこれから触ってみようという人は、簡単にインストールして試せるようになるので嬉しいです。
他にもGroongaという、クリアコードが開発に関わっている全文検索エンジンGroongaのユーザーにもメリットが(今後)あります。
というのも、これらをうまく使えばGroongaでいい感じの類似文書検索(例えばRedmineで似たようなチケットをサジェストするようなこと)ができるようになるかもしれないからです。
Groongaにはトークナイザーをプラグインとして組み込む仕組みがあって、使用するトークナイザーを使い分けることで、検索時の振る舞いを調整する(いい感じに検索する)ことができます。
利用可能なトークナイザーにはTokenBigram
やTokenMecab
などがあります。TokenBigram
だと漏れなく検索できますが、TokenMecab
のように意味のある単位での検索は不得手といったような特色があります。逆にTokenMecab
は意味のある単位でトークナイズできるのでよいかというと、辞書に依存する部分が大きく、未知の語句の検索に弱いため、必ずしも適切とは限りません。
また、TokenMecab
は既存の辞書を利用するので、言語に依存した辞書が必要です。
より精度の高い検索を実現するには、SentencePieceやfastTextなどを使って、学習結果をもとにトークナイズできるトークナイザーを使えるようにするのがよさそうです。
学習結果をもとにトークナイズするので、MeCabほどそれらしい単語にトークナイズできるわけではなさそうです。ただし、類似文書検索の場合には、特徴的な言い回しがあるかどうかで判断することになるので、そのようなトークナイザーがあると有用です。
(まだそのようなトークナイザーはできていませんが)仮に新しいトークナイザーが使えるようになったとして、インストールに手間がかかるのでは、Groongaのユーザーにとってあまり嬉しくありません。
TokenMecab
のようにパッケージでインストールできるようになっていると、インストールが容易で更新の手間も少なくできます。
パッケージ化する場合でも、Groongaプロジェクトで提供している独自リポジトリからインストールできるというのでは、Groongaをまだ使っていない人にはあまり嬉しくありません。(リポジトリを追加で登録しないといけないからです。)
また、独自のリポジトリでメンテナンスし続けないといけないというのも手間がかかります。それよりかはアップストリームでメンテンナンスするほうがより誰でも簡単にインストールできるようになって嬉しいので、EPELでパッケージを公開することにしました。*1
今回は、SentencePiece・fastTextをEPELのパッケージを使って簡単にインストールできるようになることを紹介しました。
SentencePieceやfastTextを使ってみたい人だけでなく、(今後)Groongaでいい感じの類似文書検索をできるようにするのにも必要になってくるのでEPELのパッケージとしてインストールできるようにしました。独自リポジトリにパッケージを用意して終わりにするのではなく、クリアコードではアップストリーム(Fedoraプロジェクト)へフィードバックしていくことでフリーソフトウェアの推進を実施しています。
*1 EPELでパッケージを公開するためにはいろんな手順が必要でした。
SentencePiece・fastTextをEPELのパッケージを使って簡単にインストールできるようになりますでEPELでパッケージをインストールできるようにしたことを紹介しました。
SentencePiece・fastTextを簡単に使えるようにすると嬉しい人向けの記事だったのですが、それを実現するまでにどんなことをやったのかは詳しく説明しませんでした。
今回はEPELでパッケージをリリースできるようにしたいという人向けの記事です。
以前Fedoraプロジェクトで新規パッケージをリリースする方法やFedoraプロジェクトでパッケージを更新するにはとしてFedoraプロジェクトでパッケージをリリースしたり、パッケージを更新したりするやりかたについて説明しました。
Fedoraだけでなく、EPELでもパッケージをリリースできるようにするには概ね次のような手順を踏みます。(SentencePieceもfastTextもFedoraにパッケージがないので新規パッケージをリリースするところからになります。)
Fedoraプロジェクトで新規パッケージをリリースする方法はやや古くなっていますが、基本的な流れはそれほど変わっていません。
そのため、一度Fedoraでパッケージをリリースしたことがあり、packager
グループの権限をもっているという前提で変わったところを中心に説明します。
レビュー依頼をするときには、specファイルとSRPMを提出する必要があります。
fedora-reviewを使うとある程度事前にパッケージの体裁をチェックすることも可能です。
$ fedora-review --rpm-spec --name (SRPMのファイル)
あらかじめチェックをしておくとよいでしょう。
手元でパッケージの用意ができたら、レビュワーが参照できるようにspecやSRPMを公開の場所にアップロードします。
アップロードができたら、パッケージのレビューを依頼します。
レビュー依頼には、request for review in bugzillaを使って、雛形から作成するとよいでしょう。
すでにpackager
グループに入っている場合、FE-NEEDSPONSOR
フラグの設定は不要です。
SentencePieceの場合以下のようなレビューリクエストを作成しました。
SCMリクエストはリポジトリを作成してもらうために行います。fedpkgコマンドを使ってパッケージ名と、承認されたBugzillaの番号を指定します。
SentencePieceの場合、次のようにコマンドを実行しました。
$ fedpkg request-repo sentencepiece 1758036
上記コマンドを実行すると、以下のようなissueが自動的に作成されます。
このissueはリポジトリが作成されると閉じられます。
SCMリクエストが承認されたら、次は作業に必要なブランチをリクエストします。fedpkgコマンドのrequest-branchに必要なブランチを指定します。
SentencePieceの場合、f31とepel8、epel7のリクエストを行いました。
$ fedpkg clone sentencepieces
$ cd sentencepiece
$ fedpkg request-branch f31
https://pagure.io/releng/fedora-scm-requests/issue/18148
$ fedpkg request-branch epel8
https://pagure.io/releng/fedora-scm-requests/issue/18149
https://pagure.io/releng/fedora-scm-requests/issue/18150
$ fedpkg request-branch epel7
https://pagure.io/releng/fedora-scm-requests/issue/18151
リクエストを行うと、上記のようにブランチごとにissueが作られます。ブランチが作成されるとissueが閉じられる運用になっています。
ブランチが作成されたら、次は各ブランチでリリースを行います。
specファイルやソースアーカイブをインポートしたら、fedpkg buildでパッケージをビルドします。その後、fedpkg updateを行うことで対象ブランチでリリースを行えます。
SentencePieceの場合、epel7ブランチのリリースは次のようになりました。
既定では2週間ほどでリポジトリに反映されるようです。
今回はEPELでパッケージをリリースできるようにしたいという人向けに手順を説明しました。
手元で必要に迫られてパッケージ化したものがあれば、ぜひアップストリーム(Fedoraプロジェクト)へフィードバックしていきませんか?
Apache Arrowの最新情報をまとめた須藤です。
先日、Apache Arrowの公式ブログでIntroducing Apache Arrow Flight: A Framework for Fast Data TransportというApache Arrow Flightを紹介する英語の記事が公開されました。この記事はApache Arrow Flightのことを理解する上で非常に役に立つ情報だと思ったので、翻訳し、Apache Arrowの公式ブログでApache Arrow Flightの紹介:高速データトランスポートフレームワークという記事として公開しました。
翻訳にあたり、Speeeの@mrknがレビューアーとして協力してくれました。ありがとうございます。
さて、そんなApache Arrowですが、そろそろ1.0.0がリリースされます。それにあわせてApache Arrow東京ミートアップ2019というイベントを2019年12月11日(水)の夜に開催します。去年もApache Arrowイベントを開催しましたが、今年も開催します。去年と同様、今年もSpeeeさんに会場・飲食物を提供してもらいます。ありがとうございます!
去年はApache Arrow関連プロダクトの開発に参加する人を増やすことを目的に設計しましたが、今年はApache Arrowユーザーを増やすことを目的に設計しています。そのため、次のような構成にしています。
この構成を実現するためにApache Arrowの利用事例を紹介してくれる人をすごく探しています。特に次のように使っている人をすごく探しています。
spark.sql.execution.arrow.enabled
をtrue
にしてApache Sparkを使っている人(ようはApache SparkでApache Arrowを使っている人)他の使い方でもいいんですが、Apache Arrowをすでに使っている人は@ktouに連絡してください!ぜひApache Arrow東京ミートアップ2019で事例紹介をしてApache Arrowユーザーを増やすことに協力して欲しいのです!