RWCP自律学習機能MRI研究室 研究室紹介 |
●研究成果
|
|
| RWC2000におけるデモの様子(2000/01/17-19) | 共同通信社のテレビ取材(2000/02/09) |
|---|---|
| マイクロホンアレーを用いた非音声音認識 | |
我々の周囲には常に音が満ちています。 音声認識技術は30年来の研究成果が実り、実用的な音声認識システムが市場に 登場しています。その一方で、人間は日常的に音声以外のいわゆる物音も 常に聞いており、非音声音からも衝突や摩擦、機器の運転など多くの情報を得ています。 コンピュータやロボットも環境音の情報を理解することにより、 自律的な判断や行動の助けになるはずです。
また、コンピュータとの非音声音コミュニケーションは既存の入力手段を 広げる可能性があります。つまり、拍手、口笛や、 ビンや缶を叩く、笛や鈴を鳴すなど手軽に発音できる非音声音を用いて、 コンピュータに指示したり、コンピュータに応答したりすることで、 特別な入力デバイスを使わずにインタラクションができるようになります。
そこで、我々は非音声音(=いわゆる物音)を認識する技術の研究開発を行っています。
本研究では、まず「ポン」「カン」等の(1)非音声音と擬音語との関連性、および、 典型的な(2)非音声音のスペクトル分布の特徴を調査し、 非音声音をいくつかのカテゴリに分類しました。
単発音や(広帯域/狭い帯域)連続音などの分類に基づき、 それぞれのスペクトル分布に応じた特徴量を用いた(3)非音声音認識技術 を開発しています。 10種類以上の物音(拍手、口笛、瓶・缶打撃音、鈴・ベル音、電子 音など)を音源名または擬音語として500ms以内に識別できることが目標です。
また、複数のマイクからなるマイクロホンアレーを用いて音源方向を推定したり、 複数の音から特定の方向の音だけを拾ったりする (4)ビームフォーマ技術(=超指向性フィルタ)も開発しています。 16チャネルの円形マイクロホンアレーを用いて、 少なくとも2つの音波の到来方向を同時に推定し、 30度離れた音源からの信号をS/N比を20デシベル向上することが目標です。
さらに、非音声認識技術とビームフォーマ技術のアプリケーションとして、 (5)インタラクティブ・サウンドアクションゲームと 電総研の事情通ロボットに搭載する(6)非音声音認識モジュールを開発します。
本研究では、非音声音認識技術の研究、および、 マイクロホンアレーによるビームフォーマ技術の研究・評価のために共通に利用できるような、 非音声音の多様な音源データ、および、 マイクロホンアレーによる音声・非音声データを収録しています。
反響のない無響室において(1)非音声音の音源データを 48kHzサンプリングの高品位で収録しています。 無反響の音源データはドライソースと呼ばれ、 各種の部屋の音響特性(インパルス応答)と組み合わせて、 その部屋での音を再現することができます。
複数のマイクロホンを円状や球状に並べた(2)マイクロホンアレーは、 必要に応じて任意の方向に指向性を向けることができます。 まず、マイクロホンアレーの基本特性を測り、 さらに、静止音源、移動音源、複数の音源などのデータを精密に測定しています。 また、実際の音響環境での測定も行います。
データベースはCD-ROMやDVD-ROMとして研究目的に限り無償で公開しています。
実環境音声・音響データベースのホームページ