CVPR2021(oral)の論文であるDatasetGANの紹介

論文紹介

書誌情報

論文タイトル:DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort

論文リンク:https://nv-tlabs.github.io/datasetGAN/

概要:StyleGANの特徴マップから抽出した画素ごとの特徴を入力、少数の合成画像の画素ごとのアノテーションを教師とし、MLPを学習することで、DatasetGANは「無限」のデータセットとそのアノテーションを生成する

提案手法

この図が提案手法のすべて

論文の著者
論文の著者

リアルな画像を出力できるGANのような生成モデルは、高次元の潜在空間上で意味的な知識を獲得しているのではないか…?

学習の流れ

あらかじめStyleGANは学習させておく(それかpretrainedモデルを使う)

StyleGANのAdaIN層の特徴マップを全て取り出し、最も大きいサイズの特徴マップに形をあわせるためにupsampleしたあと、結合させる

結合させた特徴マップから、各画素ごとに特徴ベクトルを抽出し、これを入力とする

解釈器と呼ばれるアンサンブルのMLP(実験では10個)を用意し、画素ごとに合成画像のラベルを多数決で予測する

StyleGANの合成画像をもとに、人間による少数の画素ごとのアノテーションを教師として用意し、解釈器を学習させる

「無限」に合成画像とそのアノテーションが生成できるモデルの完成…!

細かいテクニック

StyleGANはときにゴミデータを生成してしまうので、推論時に解釈器の不確かさが高いときはデータとして利用しない

解釈器を学習する際、StyleGANに勾配は流さないようにする

実験結果

人間がアノテーションしたとき(groundtruth)と遜色のない結果に

生成されたデータを使って、試しに好きなモデルで訓練してみよう!

コメント

タイトルとURLをコピーしました