ICU患者を模した発話データセットの公開について

立命館大学、李研究室では発声することができないICU患者と医療従事者のコミュニケーションを補助するための機械読唇システムに関する研究を行っています。

このたび、本研究活動の一環と致しまして、ICU患者を模した発話データセットを公開します。

研究内容

ICU患者の大半は人工呼吸管理を受けているため、声を出すことができず医師と会話ができません。現在は、医師は患者の口の動きから意図を推定していますが、時間がかかり双方にとって負担が大きくなっています。

本研究では、カメラ等を用いた機械読唇システムを開発することで、医療従事者に自動で患者の読唇結果を伝達することによる解決を図っています。
(“Automatic Lip Reading for inability-to-talk Patient During Mechanical Ventilation”, Yudai Nagano, Ryuhei Sakurai, Yu Kawazoe, Kyohei Miyamoto, Hirotake Yamazoe, and Joo-Ho Lee, International Journal of Knowledge Engineering, 2/ 3, 137-141, 09/2016, 2382-6185.)

公開するデータ
- 発話時の口制御点軌跡　　単語を発話した際の口制御点(後述)の軌跡情報
- 口形素ラベル　　　　口制御点の軌跡に対する口形素ラベル情報

以上の情報を、一人あたり212単語、9人分公開します。なお、発話単語は以下の音素バランス単語を用いています。

牧野正三、二矢田勝行、真船裕雄、城戸健一「東北大・松下単語音声データベース」音響誌、48, 12, 899-905 (1992.12).

データ公開のねらい

本研究のような問題を解決するにあたり広く用いられる機械学習によるアプローチでは、サンプルデータ(今回に当てはめると発話データ)を多く必要とします。しかし、ICU患者の発話の場合挿管チューブを装着した状態での発話となるため、サンプルデータがあまり存在しません。そこで、今回気管チューブ装着時の発話データを公開することでの問題解決への寄与をねらいとしています。

また、本研究で扱う問題を他分野を含め広く知っていただくことで、総智による解決を図ってゆく狙いがあります。

– 公開データについて-

発話動画は以下の図のように挿管チューブを装着した状態で1人あたり212単語の発話を撮影しました。この際、マーカを口の周りと鼻の頂点、眉間に取り付けました。このマーカ点を制御点としています。動画の解像度は1280*720、フレームレートは120FPSとなっています。

発話時の口制御点軌跡

上記の動画のように、マーカ座標を追跡した際の各点Pのxy座標の軌跡を時系列で表現したデータをcsvファイル形式で公開します。

(例)P1.x, P1.y, P2.x, P2.y, P3.x, P3.y, ……

口形素ラベル

発話時の口制御点軌跡に対する口形素ラベル(母音/a//i//u//e//o/、促音/Q/、撥音/N/)のデータを公開します。各数値は動画における開始時間(ms)と終了時間(ms)、アルファベットはその区間の発話口形素を表しています)

(例) 0 1001 a , 1001 3002 i , 3002 60003 u , ….

-データの利用について-

当ページより公開するデータの利用については、個人利用もしくは研究目的でお願い致します。データをダウンロードされる方は、以下のアドレスにメールを送信してください。ダウンロード先のURLリンク付きのメールを返送いたします。

E-mail : leejooho@is.ritsumei.ac.jp

件名 : ICU患者を模した発話データセットの公開について

本文 : 自由

AIS Lab.

立命館大学李・TRAN 研究室

ICU患者を模した発話データセットの公開について