ワトソン

IBM Watson(ワトソン)日本語API「Speech to Text(音声認識)」

「ベトナムで、人工知能システムの開発を請け負います!」

IBM「Watson(ワトソン)」の日本語API「Speech to Text(音声認識)」の概要について紹介します。

概要

「Watson」とは

Watsonは質問応答/意思決定支援システムです。IBMが開発したもので、自然言語処理技術と機械学習技術を使用して、大規模非構造化データを分析し、洞察を明らかにするテクノロジープラットフォームです。

Watsonは、経験から学習し、自然言語で投げかけられた複雑な質問を解釈し、根拠に基づいた回答をするコグニティブテクノロジーです。

「Watson日本語API」とは

Watsonは各種日本語版APIを提供しています。各APIを使用することによりWatsonの能力を活用できます。

Watson日本語API「Speech to Text(音声認識)」とは

Watson日本語API「Speech to Text(音声認識)」は、会話から文字を書き起こすサービスです。

人工知能により「言語構造(文法)情報」と「音声信号組成情報」を分析して文字として書き起こします。多くの音声を聞き取り学習することで精度を向上できます。

主な特徴

アクセスインターフェース

「Speech to Text」は、複数のインターフェースを提供します。

WebSocketインターフェース

リアルタイム変換に向いているインターフェースです。全二重接続で、低レイテンシ、高スループットを実現します。

HTTP RESTインターフェース

保存済みの音声データのテキスト変換に適しています。セッションを確立せずに、音声データを送信できます。

非同期HTTPインターフェース

非同期HTTPにも対応できるようになってきています。

入力データ

入力データとして、「マイクを使ったライブ音声」と「録音済み音声データ」の両方に対応できます。

「ブロードバンド」モデルと「ナローバンド」モデル

各言語に対して、ブロードバンドとナローバンドの2つのモデルをサポートしています。

「ブロードバンド」モデルは、応答性の高いリアルタイムアプリケーションなどに向いています。「ナローバンド」モデルは、オフライン変換処理に向いています。

サポート言語

主要な言語をサポートしています。

  • 英語(イギリス、アメリカ)
  • 日本語
  • フランス語
  • スペイン語
  • ポルトガル語
  • アラビア語
  • 中国語 など

キーワード検出機能

入力ストリームから「特定のキーワード(キーフレーズ)」を検出できます。検出フレーズを処理分岐トリガーとして利用できます。

複数話者対応

複数の話者認識もできるようになってきています。

カスタマイズインターフェース

「Speech to Text」サービスは、カスタム言語モデルを作成するためのカスタマイズインターフェースを提供します。

医学や法律などの特有カスタム言語モデルを作成することで、音声認識精度を向上できます。

開発ツール

「Speech to Text」サービス用のソフトウェア開発キット(SDK)が用意されています。

SDKは、「Node.js」「Java」「Python」「iOS」などのプログラミング言語やプラットフォームで使用できます。

ユースケース

「Speech to Text」サービスは、さまざまなユースケースでの活用が見込まれています。

  • メディアファイルの書き起こし(ミーティング、会議通話、コールセンターでの会話 など)
  • 音声制御(アプリケーション、組み込み機器、車両アクセサリ など)
  • 音源のテキスト化による検索の実現
  • 電話システム(Twilioなど)との連携

まとめ

Watsonの「Speech to Text(音声認識)」サービスは、まだ完璧といえる精度には達していませんが、確実に精度を向上させつづけており、さまざまな場面での活用が期待されています。

About the author: matsumoto