FID & CLIP score
こういうやつの意味を理解する。
FID (Frechet Inception Distance)
Inception V3モデルを利用した指標。生成画像と、リアル画像の、Inception V3による出力feature vectorの分布の違いをFrechet Distanceというので計算したものっぽい。
CLIP Score
- CLIPのtext encoderにpromptを入れたembedding
- CLIPのimage encoderに生成画像を入れたembedding
これらのcosine類似度を計算したものっぽい。
FID CLIP Score Curve
画像の品質とpromptへの従い度合いのトレードオフを描いたグラフだと理解した、なるほど
guidanceの強さを変えながら描いてるものが多いと思うが、少し強くしたほうがCLIPだけじゃなくてFIDも良くなるのは、何でなんだぜ?全くguidanceが無いより少しguidanceがあったほうがそれっぽい画像が生成されるってこと?