昨年から レアゾン・ホールディングスさん の音声処理研究のお手伝いをしていました。 本日、無事にローンチ(一般公開)できたので、 今回のプロジェクトについて書きます。
今回のリリースについて
詳しい説明は 公式プロジェクトサイトに書きましたが、今回、具体的にリリースしたのは次の3つです。
項目 | 説明 |
---|---|
日本語音声コーパス | 約19,000時間のラベル付き日本語音声コーパス |
日本語音声認識モデル | コーパスをもとに学習した日本語音声認識モデル |
ツールキット | 日本語音声コーパスを自作するためのツール |
まず注目すべきは音声コーパスで、日本語音声のデータセットとしては世界最大です。 一般公開されているものでは JSUT が10時間、 Common Voice が80時間程なので、 既存コーパス比で200〜1900倍のデータサイズになり、これが無償で誰でも使えるようになります。
二番目の音声認識モデルは、コーパスをもとに ESPnet のモデルを学習したものです。 精度を検証してみると、昨年、OpenAIがリリースした Whisper の最も大きいモデルと同等の性能がでているので、世界最先端の水準と言って良い精度だと思います。このモデルのライセンスはApacheライセンス2.0なので商用利用もオッケーです。
- 音声認識モデルの精度がどのくらいかは 公式サイトのデモ で試せます。
三番目のツールキットはコーパスを作成するために開発したPythonライブラリで、 これを使えば日本語コーパスを誰でも作れるようになってます。
今後の展望とインパクト
本研究では、このギャップを埋めるため、弱教師付き音声認識の規模を拡大し、680,000時間のラベル付き音声データに拡大した。このアプローチを我々はWhisperと呼んでいる。このスケールで学習されたモデルは既存のデータセットにゼロショットで応用でき、データセット固有のファインチューニングを必要とせず、高品質な結果を得ることができることを示す。
-- Cherti, Mehdi, et al. "Reproducible scaling laws for contrastive language-image learning." arXiv preprint arXiv:2212.07143 (2022).
OpenAIが昨年発表した Whisper論文 の核心にある論点は「既知の深層学習モデルに対して、投入するデータの量を飛躍的に拡大すれば、人間の水準に比肩するロバストな音声認識モデルが得られる」という点にありました。
この洞察が正しければ、これからの日本語音声処理技術の進展は、入手可能な学習データセットの物理的な量に大きくかかってくることになるでしょう。より多くのデータソースを統合し、組織的に計算資源に投入することが、最先端の音声認識モデルを構築する明白な糸口となるからです。
今回のプロジェクトの大きなポイントは、日本語音声コーパスのデータ量の課題を解決することにありました。 私達の研究が、日本における音声処理研究を加速させる一助となれたらと願っています。