ストリームビデオを探し当てる為に不可欠な検索技術

VODの鍵を握る自動メタデータベース構築」

ビデオタイムマシン  i-Telop

2001-09-10
尾上泰夫

 

ブロードバンドネットワークのキラーコンテンツと呼ばれる映像プログラムだが、果たしてライブ放送を前提としてきたテレビ(ビデオ)素材を転用するだけですむのだろうか。
インターネットの存在は、地球規模の映像ネットワークを可能にしてしまった。
各国地域の時差だけでなく、さまざまな価値観を持ち、生活時間帯の異なる人たちの共有できるコンテンツサービスは、放送時間をプログラムした在来型の既存の放送でのライブサービスでは不向きだった新しい領域を開拓してくれる。
時間軸(リニア)で構成される映像のインデックスとしてビデオテープの背ラベルに記述してあるだけの情報では不足なのは言うまでもない。
ビデオオンデマンドと呼ばれるサービスは、文字通りほしいときに、ほしい映像をいつでも見ることができるサービスだ。

さて、そこで、私たちはどのように「ほしい」映像を探したらよいのだろう。
主演の俳優?監督の名前?それとも内容の一部だろうか?何かのシーンで意味を探すのだろうか?
この疑問はそのまま逆に検索するという行為に必要な情報を意味している。
データベースに映像の情報を記録する場合、何を登録したらよいのだろう。
そこで、「何かの情報」と言う部分を映像に付随するメタデータと言い換えることが重要になる。
メタデータとは、コンピュータ用語としてはポピュラーだが、映像の情報に関連が濃厚になったのは、デジタルアーカイブの必要に迫られたからに他ならない。
デジタルアーカイブには検索性能の向上が求められているのだ。
検索にはさまざまな手段が用いられるが、その対象になるデータがなければ検索不可能だ。実際の映像はあっても探し出すことができないのだ。

これからの放送局は1日24時間の放送だけではなく多チャンネルの放送コンテンツを意識する必要がある。コンテンツの創出には多くの情報が必要なことは言うまでもない。
さらに自社送出素材だけでなく、競争社会である以上、当然ライバルの動向も記録しておく必要がある。取り上げようとするテーマの扱い方などは、差別化を考慮する重要なポイントとも言える。同様にスポンサーに対する企画持込の資料にもなる。

制作会社ではメタデータを新しい商品として位置付けることもできるはずだ。

 

しかし、情報処理には思わぬ価値を生む代わりに、地道な作業もついて回るものだ。制作で収集し、使用してきた資料をデジタルデータとして検索可能な情報に加工できれば、これはかけがえのない貴重なメタデータそのものになるのだ。
番組企画当初の企画書は、そのままプロフィールシートの変わりになる。
取材ノートはかけがえのない情報の宝であるし、接触担当者のデータベースは、プロデューサーやディレクターの命綱でもある。
ビデオ編集により生み出されるEDL(エディットデシジョンリスト)は克明なカットアドレスそのものである。
制作作業と同時進行で自動的にたまっていくデータならいざ知らず、作業終了語に、これらのデータを整理して一からの入力していく作業には、多大な手間がかかる。

膨大な時間作業を多人数でカバーするには、送出を続けるコンテンツが多すぎるのだ。
そこで、メタデータを自動抽出する方法が求められる。

さまざまなシステムが提案されているが、そのベースになる技術を見てみよう。
映像の管理業務に必要な機能とは、人手に頼らず自動的に映像の中からある特徴を探し出してくれることだ。
映像の中の特徴を調べるポイントは、シーンの切り替わりや、字幕の表示、色情報をもった物体の検出、物体進入の認識など、さまざまだ。人の目であれば映像の意味や解釈などの意味情報が理解できるが、記録するポイントには具体的なアドレス検出(タイムコード)を併用する必要がある。

それでは基礎技術を紹介しよう。

■カット点検出
カット点検出では映像シーンの変わり目を画像変化(色の変化)が多い個所を認識してカット点を検出する。
このソフトはノンリニア編集環境でBIN表示される映像の整理などに利用されている。
■ディゾルブ検出
映像の連続するフレームの明るさ(輝度)が徐々に一定の割合で変化する単調変化性を認識してディゾルブを検出する。
■ワイプ検出
ワイプを使用した映像が、元のシーンと後から表示されるシーンとの境目で明るさの差(輝度差)が大きいことを認識してワイプを検出する。
■スチル検出
映像中の静止状態になっている区間はフレームの明るさ(輝度)の変化が少ないことを認識してスチルを検出する。

■テロップ検出
映像中のテロップが表示されている領域では、高輝度でフレーム間の明るさ(輝度)の変化が少ないことを認識してテロップの開始点、終了点を検出する。
演出的にテロップを挿入する画面は決めの映像が多いので、インデックス表示すると時間をかけずに全体の流れを把握することに有効だ。
■パンズーム認識
映像が上下左右に移動した場合模様情報の移動量を求めることでパンの有無を認識する。また、拡大、縮小率を求めることでズーム率を検出する。
この機能を利用してビデオ映像からパノラマ写真の制作や、ズームを利用した高解像度の高解像度写真の合成などに利用できる。

■侵入監視(動き)検出
画像上に設定したスリットに対して人物や物体が通過する事象を検出する。
連続撮影している中から動きのある部分をリストアップすることが実現できる。

■色物体認識
色の情報を元に映像中の色を1フレームずつチェックし対象物に関する情報として、対象物がフレームに表示されていいるかどうかの判定結果、開始点、終了点、位置情報などを出力する。

このような認識を自動的に行い記録をさせることで、より正確に必要な映像へすばやくたどり着くことが可能なる。

VODのアセットマネージメント
データベースに記録できるメタ情報と、映像の時間位置情報をリンクすることでオンデマンドのビデオ検索に利用できるシステムとしてストリームビデオ配信ネットワークへ登場したシステムがある。
Virage」はストリーミングビデオとデータベースによる管理を商用利用することを提案している。
アセットマネージメント機能を強化して映像の中にあるさまざまな情報を検索対象にしているのだ。従来のパソコンでの画像解析技術をプラグインの形で取り込めるようにデザインしてあるのが特徴だ。記録できる情報に「クローズドキャプション」などの文字放送データや、IBMの音声認識を取り込むなど多彩な情報が収集できる。
面白いところでは顔の検出を行うプラグインが紹介されていた。これは「フェイスイット」というコンシューマー向けソフトの機能を利用したもので、事前に記録してある人物の顔を画面の中から探してくれるものだ。
Virageはアメリカで多くの放送局で採用され、放送素材のWeb展開へ拍車をかけている。日本でも進出が予想されるシステムだ。

さて、最後に日本語のビデオOCRについてご紹介しよう。
テロップ検出を行うシステムが実際のビデオ画面を捉えても、読み出しができないと検索には不便だ。先のVirageも、現時点では日本語の文字を読み込むことができない。
そこで紹介するのが「ビデオタイムマシン i-Telop」だ。

テロップの表示された画面は意味的に説明を付加したい意図のある重要なシーンである場合が多いので、テロップ検出はインデックスとして大変有効だ。
しかも、その文字を読み込み、テキスト情報として認識してデータベースへ自動的に登録してくれる。
利用法は簡単だ。キーワードで検索したり、探したい日付の時間帯でテロップの表示された画面だけを一覧表示することができる。その画面をクリックするとMPEG-4(WindowsMedia8)の動画がストリームで再生される。
ネットワークで利用できるので、テープ管理の手間がいらない。
24時間稼動して映像を記録しつづける。同時に無人でテロップ文字の取り込みを行ってくれる。
放送記録を義務つけられている放送局のライブラリーには重宝な検索システムといえるだろう。
i-Telopシステムはフォーツーツーで稼働中なので常設デモが可能だ。

戻る|次へ