[実環境音声・音響データベースのホームに戻る]

RWCP 実環境音声・音響データベース
マイクロホンアレーを用いた非音声音認識システム

株式会社三菱総合研究所 比屋根一雄、飯尾淳

本ページの最新情報は http://tosa.mri.co.jp/nonspeech/ を参照のこと。

RWCP自律学習MRI研究室(三菱総合研究所)は、 「マイクロホンアレーを用いた非音声音認識システム」を開発した。 鈴、ベル、拍手など7種類の物音を80%以上の精度で特定できる。 ピーク時と1/10に減衰した段階のスペクトルから32個の特徴量を抽出し、 あらかじめ学習したデータと照らし合わせて音源を識別する。 直径30cmの円周上に等間隔に16個のマイクを取り付け、音が各マイクに到達する時間差などから、 10度単位に音源方向を推定することができる。

我々は音声以外のいわゆる「物音」からも多くの情報を得ている。 物が落ちた、電話が鳴った、車が来た等、日常的な物音を認識することで、 福祉・セキュリティ分野や移動ロボットに新たな機能を付け加えることができると期待している。

RWC2000におけるデモの様子(2000/01/17-19) 共同通信社のテレビ取材(2000/02/09)

1.単発衝撃音の認識技術

(1)単発衝撃音とは?

単発衝撃音は一回の衝突に基づく非音声音であり、物を叩いたり、落したり する際に発生する日常的な音の一つである。 本システムでは、木板、金属缶、ガラス瓶、ドラムの打撃音、拍手、ハンドベル、 鈴の7種類を認識する。

(2)認識方法

(a)単発衝撃音の判定
単発衝撃音であるか否かを判別するために、 入力された音響信号のパワーの時間的変化が単発衝撃音の特徴である 指数減衰型のプロファイルをなしているかどうかを判別する。
(b)スペクトルマッチング
次に、単発衝撃音のパワーのピーク時と減衰時におけるスペクトルを計算し、 それを16の周波数帯域に分割した32個の特徴量を求める。 それぞれの単発衝突音について、 多数のサンプルからあらかじめ作成しておいた特徴量の分布とパターンマッチングを行い、 最もマッチングした音源の種類を識別結果として出力する。

(3)認識性能

静穏なオフィス環境において平均識別率は約80%であり、識別時間はPentium 500MHz の Linux PC で1秒以内である。今後は認識率の向上と識別対象の拡大 が課題である。

単発衝撃音のパワーの時間推移とスペクトル

2.マイクロホンアレーによる音源方向推定技術
円形マイクロホンアレー

(1)背景

非音声音認識技術を利用する場面を考えると、 「どこ」で音が鳴ったかという情報は重要である。 また、一般に比較的遠方の音を認識する必要があり、 音源方向を推定すること、背景ノイズを低減することが必要になる。

(2)遅延和アレーフィルタ

特定の方向から来る音波の16個のマイクロホンへの到達時間差を揃え、 音響信号を重ねることによって、 その方向から来る音だけを強調する超指向性フィルタ(ビームフォーマ)を利用した。

(3)推定能力

方向推定は10度の分解能を持ち、約6dBのノイズ低減を実現した。 今後は、方向推定だけでなくノイズ低減能力を向上させ、 複数音源の分離を可能にすることが課題である。

3.マイクロホンアレーを用いた非音声音認識システム

(1)システム構成

 マイクロホンアレー、マイクアンプ、A/D変換器、パソコン×2台(認識用+ 表示用)で構成される。マイクロホンアレーには、無指向性エレクトレットコ ンデンサマイクを直径30cmの円環状に16個並べたアレーを用いた。

(2)処理フロー

マイクロホンアレーで測定した音響信号はマイクロホンアンプ、A/D変換器 を介して、認識用パソコンに取り込まれる。

10度間隔13方向(-60〜+60度)の仮想的なビームフォーマを同時並行的に計算し、 各方向からの音響信号を取り出す。最もパワーの大きな方向の信号を取り出し、 一定値以上にパワーが連続した場合に、音響事象が発生したものとする。 この音響信号に対し、単発衝撃音であるかを判定し、 単発衝撃音であれば、あらかじめ登録しておいた各音源についてスペクトルマッ チングを行う。

処理結果である音源方向および音源種類は、LANを介して表示用パソコンに 送られ、Java言語で開発したスペクトログラム表示ウインドウ、および、音源 種類認識結果ウインドウに表示される。

(3)認識性能

静穏なオフィス環境において、方向推定は10度の分解能を持ち、約6dBのノ イズ低減を実現した。また、音源種類の平均識別率は80%以上である。認識処 理全体として、ほぼリアルタイムに動作し、1秒以下で認識結果が表示された。

非音声音認識システムの処理フロー システム全景
スクリーンショット
[実環境音声・音響データベースのホームに戻る]
RWCP Sound Scene Database in Real Acoustical Environments
Copyright (c) 1998-2001 Mitsubishi Research Institute,Inc.