iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

FID & CLIP score

こういうやつの意味を理解する。

wandb.ai

FID (Frechet Inception Distance)

torchmetrics.readthedocs.io

Inception V3モデルを利用した指標。生成画像と、リアル画像の、Inception V3による出力feature vectorの分布の違いをFrechet Distanceというので計算したものっぽい。

CLIP Score

torchmetrics.readthedocs.io

  • CLIPのtext encoderにpromptを入れたembedding
  • CLIPのimage encoderに生成画像を入れたembedding

これらのcosine類似度を計算したものっぽい。

FID CLIP Score Curve

画像の品質とpromptへの従い度合いのトレードオフを描いたグラフだと理解した、なるほど

guidanceの強さを変えながら描いてるものが多いと思うが、少し強くしたほうがCLIPだけじゃなくてFIDも良くなるのは、何でなんだぜ?全くguidanceが無いより少しguidanceがあったほうがそれっぽい画像が生成されるってこと?