ワトソン

IBM Watson(ワトソン)日本語API「Text to Speech(音声合成)」

「ベトナムで、人工知能システムの開発を請け負います!」

IBM「Watson(ワトソン)」の日本語API「Text to Speech(音声合成)」の概要について紹介します。

概要

「Watson」とは

Watsonは質問応答/意思決定支援システムです。IBMが開発したもので、自然言語処理技術と機械学習技術を使用して、大規模非構造化データを分析し、洞察を明らかにするテクノロジープラットフォームです。

Watsonは、経験から学習し、自然言語で投げかけられた複雑な質問を解釈し、根拠に基づいた回答をするコグニティブテクノロジーです。

「Watson日本語API」とは

Watsonは各種日本語版APIを提供しています。各APIを使用することによりWatsonの能力を活用できます。

Watson日本語API「Text to Speech(音声合成)」とは

Watson日本語API「Text to Speech(音声合成)」は、テキストを自然な音声に変換するサービスです。

音声合成機能を使用して、文章から音声を合成します。各種言語に対応し、適切なリズムとイントネーションで話す自然な音声を合成します。

主な特徴

入力データ

入力データとして「プレーンテキスト」と「音声合成マークアップ言語(SSML:Speech Synthesis Markup Language)」に対応します。

「SSML」は、音声合成アプリケーションのための注釈を付加できるXMLベースのマークアップ言語です。

入力対応言語

以下の各言語をサポートしています。

  • 英語
  • 日本語
  • ドイツ語
  • フランス語
  • イタリア語
  • スペイン語
  • ポルトガル語

インターフェース

インターフェースとして、「HTTP REST」と「WebSocket」に対応しています。どちらのインターフェースでも、サポートされているすべての言語でSSMLを使用できます。

出力オーディオフォーマット

出力オーディオフォーマットとして、次から選択できます。

  • Ogg(デフォルト)
  • WAV
  • FLAC
  • PCM など

出力合成音声バリエーション

言語ごとに音声が用意されています。

  • 英語(アメリカ)—女性2、男性1
  • 英語(イギリス)—女性1
  • 日本語—女性1
  • ドイツ語—女性1、男性1
  • フランス語—女性1
  • イタリア語—女性1
  • スペイン語(欧州)—女性1、男性1
  • スペイン語(北米)—女性1
  • ポルトガル語(ブラジル)—女性1 など

カスタマイズインターフェース

「Text to Speech」サービスには、カスタマイズインターフェースが用意されており、音声合成に使用する「カスタム音声モデル」を作成できます。

「カスタム音声モデル」は、特定言語の単語辞書です。該当する単語が入力テキストに出現した場合に、どのように発音するかを指示できます。「国際発音記号(IPA)」または「IBM記号音声表記(SPR)」で発音定義できます。

個人名、地理的名称、略語などのカスタム音声モデルを作成することにより、より自然な発音に近づけられます。

ソフトウェア開発キット

「Text to Speech」サービスには、開発ツールキット(SDK)が用意されています。スピーチアプリケーションをスピーディーに開発できます。

SDKは「Node.js」「Java」「Python」「iOS」などのプログラミング言語とプラットフォームで使用できます。

プログラミングモデルとして「プロキシ経由中継モデル」と「直接アクセスモデル」の2種類が用意されています。

ユースケース

次のようなユースケースが想定されます。

  • 視覚障害者用支援ツール
  • ボイスインターフェース(ホームオートメーションソリューション、車両内ドライバー用インターフェース)
  • ビデオスクリプトナレーション(ボイスオーバー)
  • 読書用教材 など

まとめ

Watsonの「Text to Speech(音声合成)」サービスにより、文字情報を介さないヒューマンインターフェースの発展と普及が期待されています。

About the author: matsumoto