ワトソン

IBM Watson(ワトソン)日本語API「Document Conversion(文書変換)」

「ベトナムで、人工知能システムの開発を請け負います!」

IBM「Watson(ワトソン)」の日本語API「Document Conversion(文書変換)」の概要について紹介します。

概要

「Watson」とは

Watsonは質問応答/意思決定支援システムです。IBMが開発したもので、自然言語処理技術と機械学習技術を使用して、大規模非構造化データを分析し、洞察を明らかにするテクノロジープラットフォームです。

Watsonは、経験から学習し、自然言語で投げかけられた複雑な質問を解釈し、根拠に基づいた回答をするコグニティブテクノロジーです。

「Watson日本語API」とは

Watsonは各種日本語版APIを提供しています。各APIを使用することによりWatsonの能力を活用できます。

Watson日本語API「Document Conversion(文書変換)」とは

Watson日本語API「Document Conversion(文書変換)」は、ドキュメントタイプ変換サービスです。さまざまなコンテンツを扱うWatsonにとって有用なサービスです。

主な特徴

文書変換基本フロー

基本的な変換フローは次の通りです。

  1. 入力ドキュメントを指定する
  2. 変換出力タイプを選択する
  3. オプションで変換をカスタマイズ
  4. ドキュメント変換
  5. 出力

応答コード

「Document Conversion」サービスは、標準のHTTP応答コードで、変換処理の正常完了(異常終了)を応答します。

  • 200タイプ=処理成功
  • 400タイプ=処理失敗
  • 500タイプ=内部システムエラー など

サポート言語

以下の各種言語をサポートしています。

  • 英語
  • フランス語
  • ドイツ語
  • 日本語
  • イタリア語
  • ポルトガル語
  • スペイン語 など

「Retrieve and Rank(検索およびランク付け)」サービスとの連携

「Document Conversion」サービスは、同じWatsonAPIである「Retrieve and Rank(検索およびランク付け)」サービス用の事前処理として利用できます。

入力ドキュメントに対してHTMLのクリーンアップ(正規化)処理などを行い、「アンサーユニット」を生成します。「アンサーユニット」とは、「Retrieve and Rank」サービスをトレーニングするためのJSONファイルタイプです。

対応フォーマット

入力フォーマット

これらの入力フォーマットをサポートします。

  • Microsoft Word文書
  • HTML文書
  • PDF文書

出力フォーマット

これらの出力フォーマットをサポートします。

  • テキスト文書
  • HTML文書
  • JSONアンサーユニット

カスタマイズオプション

「Document Conversion」サービスでは、高度なカスタマイズオプションで、変換出力のタグと構造を定義できます。カスタマイズにより「冗長なタグを削除する」「規定のフォーマットに合わせる」などの対応を行えます。

カスタマイズフェーズ

複数の処理段階でカスタマイズを行えます。

  • 入力フォーマットからHTMLへの変換時
  • 正規化プロセス時
  • ターゲット出力時 など

APIメソッド

ドキュメント変換メソッド

ドキュメント変換を行なうメソッドです。マルチパート/フォームデータ要求を受け入れます。ドキュメントを「ファイルフォームパート」として、設定を「設定フォームパート」としてアップロードします。

ドキュメント索引付けメソッド

「Retrieve and Rank」サービス用のドキュメントを作成するメソッドです。Solrインデックスにコンテンツを追加して検索します。

まとめ

Watsonの「Document Conversion(文書変換)」サービスを利用することで、Watsonへ入力するドキュメントを準備できます。

About the author: matsumoto