音声によるインデックスの生成
フォトロン社 Power Index

2002-08-31

尾上泰夫

 


デジタル映像コンテンツの活用にインデックスが有用なことは何度も紹介してきたが、今回登場するのは音声情報からのインデックスを目指すフォトロン社のナレッジ・マネージメント・システム(Power Index)だ。
棚に埋もれている映像情報の活用に、内容の検索を行う機能が求められること自体は必然的なものだ。
「たしか、こんなことを言っていたビデオがあったはずだ。」「あんな表現をしていたケースの詳細を見直したい。」など、探したいときにはビデオタイトルから思い出すわけではないのが人間の記憶というものだ。

問題は、時間軸を有する映像情報のどこに、何が含まれるかを指し示す手がかりをつける作業が、膨大なコストとなって実現を阻んできていることだ。
後処理で人手をかけることは現実的でないのだ。
そこにシステムの自動化が望まれている。

Power Indexは、ビデオコンテンツに含まれる音声情報をデジタイズして解析し、文字情報として内容を検索する機能を提供してくれる。
ナレーターの音声などが文字情報として記録されているので、キーワードなどで検索することや、原稿として閲覧することも可能だ。
しかも、その作業を自動化して簡単な操作で実現するところが特徴となっている。

さっそく製品を見てみよう。
「コンテンツが作りやすい」「コンテンツが見やすい」「システムの拡張性がある」、をコンセプトに開発されたPower Indexは、映像の取込から登録、データベース管理までを自動化し、そのデータをWebビューワから検索/表示することができる。

コンテンツ作成部分を最大限自動化し、コンテンツ作成時の負担を軽減すると共に、映像に対して音声認識/サムネイル/メタ情報等の付加価値情報を与えることにより、単なる映像ではなく「意味のある映像」資産として管理を行うことが可能な映像ナレッジマネジメントシステムになっている。
NGシーンの排除など簡単なビデオ編集や、データベースへ登録するキーワードの列挙など手作業で行う場合も、作業者の大幅な助けになることは間違いない。

システムはエンコーダクライアント/サービスサーバ/ビューワクライアントの3つから構成されている。システム導入後の拡張性及び他システムとの連動を実現すべく、システム全体がMicrosoft社の「.NETテクノロジー」上に開発されており、システム全体としてXML Webサービスになっている事も大きな特徴の一つだ。

<コンテンツ作成支援機能:Power Indexエンコーダクライアント>
動画コンテンツ作成において面倒と思われる、キャプチャ/エンコード作業及びデータベースへの登録作業の支援を行うのがPower Indexエンコーダクライアントだ。最大の特徴はほぼ全ての作業が自動化されることにより大幅な省力化を実現した。

A:自動データ作成機能
ワークフロー機能を使用し、データの取込みからサーバへの登録までを、ほぼ人手を介すこと無く自動で作業を行うことが可能だ。もちろん全ての操作をマニュアルで行うことも出来、さらに操作ナビゲーションにより操作が分からなくなった場合はシステム側で自動支援を行うことができる。

B:画像インデックスの自動生成
インデックス情報として、サムネイルとメタ情報を持てる。サムネイルは、インデックスデータ作成時に自動的に生成される他、任意の場所を指定・登録することも可能だ。メタ情報は、ユーザー情報やDVカメラなどから基本情報を自動的に収集する他、任意事項の入力も可能だ。

C:音声認識
音声認識エンジンとしては、日本語ディクテーションエンジンとして定評のあるアドバンスト・メディア社のAmi Voiceを採用。面倒なエンロール作業を必要とせず、不特定話者に対する音声認識を行うことが可能だ。この音声認識後のテキストをキーとして、任意動画へのランダムアクセスも可能だ。

<サービス配信:Power Indexサービスサーバ>
データの保存及びビューワクライアントへの配信を行う。
拡張性にすぐれたXML Webサービスになっている。


<検索・表示機能:Power Indexビューワクライアント>
データベースに登録された膨大な動画データを検索・表示することは容易ではない。この作業を簡易化するために、ビューワ機能として強力な検索と階層表示機能を実装した。また、サムネイルもしくは再生中の画像と一緒に表示されるテキストデータから任意の再生部分へのジャンプも可能としている。

A:多彩な検索機能
検索機能として音声認識したテキストに対する全文検索のほか、メタ情報検索・日付時刻検索を実装。また、これらの検索機能を組合せて使用することも可能だ。

B:登録データの階層表示
現在登録されているメタデータを階層的に表示する機能により、サーバに蓄積されている情報が階層構造的に見ることが出来る。分類作業をシステム側で支援するという機能だ。

<拡張性:Power Indexアーキテクチャ>
システムの導入にあたって、拡張性は常に求められる要因となる。また、今後のシステム構築においてはXML Webサービス技術を用いた、「繋がるシステム」間の接続を前提としたシステム設計が標準となろう。この様なニーズにお応えするために、Power Indexは、Microsoft.NETテクノロジーを全面採用することにより、システム全体としてXML Webサービスに対応する事を可能にした。このことにより、既存のシステムとの連携を実現するなど柔軟な拡張性をもつことが可能になっている。

<システム標準構成>
エンコーダクライアント:
映像のキャプチャ/編集/インデキシング及びサーバ転送を行う。

サービスサーバ:
Power Indexデータの保存及びビューワクライアントへの配信を行う。

ビューワクライアント:
ASP.NETにて生成されたデータをInternet Explorer上で表示する。

DVコンバータ:
ビデオ信号をDVデータに変換する

※ 上記ソフトウェア/ハードウェアが標準構成(5,000,000円)に含まれる。ビューワクライアントは5クライアントライセンスが付属となる。

開発の進むフォトロン社のPower Indexは、時代の要望するデジタルアーカイブとデータ検索への有効な道筋を示している。音声情報の意味性を考えたとき、映像の内容を指し示す有効なインデックスのひとつとして、これからも高精度化と簡易な操作性を推し進めていってもらいたい。

デジタル・コンテンツの有り様を考えると、後処理で苦労して取り出しているメタデータそのものは、制作段階では存在し、捨てられている情報がほとんどだ。
今後の制作システムには、メタデータの自動リンク機能などの拡張を意識して支援ソフトのデザインをしていただけるよう、メーカーに期待したい。


戻る|次へ