音声を検索する技術

ポッドキャスト内の言葉を拾う検索エンジン

音声をどうやって検索するのか。
これは映像検索にも当てはまることなのだが、どんな音声/映像なのかを伝える方法として、文字情報をメタデータに付加することで検索を行ってきた。

つまり、この写真に
東京タワー

「東京タワー」、「100万人のキャンドルナイト」、「2004年6月20日」「http://www.candle-night.org/

といった情報を付加しておくことで、検索の際にキーワードとしてヒットさせるという方法が取れる。
Macintoshに標準添付されているiPhoto という画像管理ツールがいろいろ便利な事ができるのは、このメタデータを生かした画像管理の方法を取っているからだ。

もうちょっと簡単な例で言うと、

The Continental Way.mp3 というMP3ファイルには、
artist:CASIOPEA
album:Casiopea Live
genre:Fusion
Track:02

などの情報が含まれている。この情報を元に、このMP3ファイルはカシオペアの「The Continental Way」という曲であることがわかるようになり、iTunesなどでジャンルやアルバム名、アーチスト情報での検索を可能にしている。

このように事前にコンテンツに情報を付加しなければならないところが、音声や映像ファイルの検索を難しいものにしていた。
しかも、このメタデータの生成は、CDDBなどから引っ張ってくる仕組みでもない限り、自分で入力・管理しなければならない。

ってことで、こうした文字情報をどうやって自動的に生成するか、という研究は随分なされているのだが、実用化というところではまだまだ現実的ではなかったりする。
もちろん、技術がないわけではないのだが、膨大なシステムコストが掛かるためあんまり普及していないというのが現状だ。
以前、東京工科専門学校(TERRAHOUSE)の偉い人と話す機会があったのだが、ここのストリーミングレッスンは、文字通りストリーミングで授業を受けられるようになっているが、その授業内容をコンテンツサーバーで管理する際に、自動でコンテンツの中身から音声情報を解析して、どんな内容が話されているかをインデックス化するシステムをかなりのコストを掛けて入れているとのことだった。(手でいちいち入れてたら講義数が膨大で対応できないからだそうな)

音声解析はまだまだ発展途上のジャンルであり、以前おいらの会社で販売していたドラゴンスピーチという音声認識ソフトでも、

 ・認識したい人の声を事前に登録しておく(不特定多数の声を認識できない)
 ・一度に1人の声しか認識できない(会議のように何人も話している環境では使えない)
 ・周りに雑音のない環境で話すこと

といった制約がついていた。
これでも、競合製品の中では一番性能がいいって言われてたんだけどね。
カーナビやケータイの音声認識は、あくまで単語を聞き取って判別しているだけなので、複雑な文章などは認識できない。

前置きが長い。

で、このニュースを見てなんか少し先が見えてきたような気がした。
リアルタイムに音声解析をして文字化をするのはさすがに難しいようだが、解析サーバにファイルを投げて順次インデックスを生成してポッドキャストを公開できれば、配信時のRSSデータにより正確な内容を付加することができる。
情報の正確性が増せば、当然マーケティングやらプロモーションやらも盛り上がってくる。
ポッドキャストの進行に伴い、予め用意しておいた任意の画像を順次表示させる仕組みは、すでにiTunesで実装されているが、今後はこの部分に広告が入るようなビジネスモデルになっていくんだろう。
なんでもかんでも広告に結びついてくるところが正直ウザいが、それ以外にも情報と情報、人と人が繋がる接点になり得るかもしれない。


結局、コンピュータが発達しても、人間は文字による情報伝達を基本とするんだな、っていうなんだか皮肉のような気もしないでもない。
が、人間の脳に蓄積できる情報なんていうのは限りがあるわけで、すべての情報を人が判別できるカタチでアーカイブすることで、脳のシンクライアント化がどんどん進んでいくような気がする。すなわち、膨大な情報に対応するための人間の進化の形態って意味ね。
こんなこと、サイバーパンクな人たちはとっくに見越しているんだろうけどね。

この記事へのコメント


この記事へのトラックバック

映像検索技術の共同開発
Excerpt: Googleって、大学生2人が作ったんですよねえ。 産学官連携したところで、勝てるわけがない。 ネットに数の原理は通用しないでしょう。 movabletype だって、Flickr だって、確か夫婦で..
Weblog: お気楽極楽ブログ
Tracked: 2005-12-19 11:17