はじめに
卒研でRGB-Dデータを使う研究をやっていたので、その時に調べた内容について軽くまとめます。
タイトルでは"Kinectを用いた"となっていますが、実際はそこに拘りはありません。ただ、研究分野でかなりよくKinectが使われているので、RGB-Dに関わる研究を探す場合には同時にKinectの文脈でも探したほうが良いと思います。Google Scholarでも"kinect"の方がよくヒットします。
さて、実際にデータセットについてまとめようと作業を始めたのですが、せっかくなので表にまとめようと思い、早々に挫折しました。そこで、調べる中で見つけたRGB-Dデータセットのサーベイ論文をシェアすることにします。
文献リスト
まず、Kinectから取得されるRGB-Dデータ(及び音声データ)の応用をまとめている論文があります。Kinectから取ったデータの使い道のイメージをつかめると思うのでおすすめです。
論文
データセットの種類(タスク)毎に表で整理してありわかりやすいです。データセットの説明や作成年だけでなく、サムネイルが付いていて、形式(Video?/Skelton?)についても言及があります。
これも種類に応じて章分けしてまとめてくれています。一応表もありますが見づらいです。個々のデータセットに対し、サンプル数やラベル情報を簡潔に文章でまとめてくれています。最初のツリー画像が良い感じです。
アクション認識に絞ってまとめられているのですが、文章でも表でもかなりよくまとめられています。とうか逆にタスクを絞ったからこそまとめやすいのかもしれませんね。ラベル数とサンプル数で図に落とし込まれているのもわかりやすかったです。
これはジェスチャ認識に絞ってまとめられたものです。これも表あるのでわかりやすいです。あと、
Availability (Public, Public on Request or Not Yet)
の項もあるのが特徴です。
Web
ついでにWeb媒体の資料も載せておきます。
さいごに
今回探してみて、愚直にGoogleなどで探すと意外に辛いことがわかりました。特にKinectが発売直後の2011〜2013年のデータセットは数も多くよくヒットするのですが、新しめのデータセットはこのようなサーベイ論文を当たるほうが圧倒的に効率が良いです。あと、Skeltonがあるやつを探したいみたいな場合も、データセットのHPを見てもデータ形式が明示されてないことが多く、そもそもHPがないケースもあるので、論文当たったほうが良いですね。