Classifier-Free Diffusion Guidance

拡散モデル

arxiv.org huggingface.co この調整できるguidance scaleってどういう仕組みなのか分からなくなったので調べてみた。 ImaGenの論文を見るとこう書いてある(P.4) 一見0≦w≦1で重みつき平均の式……かと思いきや、これでw>1にするらしい。それによって、よりcondi…

2023-03-19

FID & CLIP score

拡散モデル

こういうやつの意味を理解する。 wandb.ai FID (Frechet Inception Distance) torchmetrics.readthedocs.io Inception V3モデルを利用した指標。生成画像と、リアル画像の、Inception V3による出力feature vectorの分布の違いをFrechet Distanceというので計…

2023-03-18

Learning Transferable Visual Models From Natural Language Supervision

LLM 拡散モデル

arxiv.org 概要 CLIPの論文。CLIPのtext encoderがstable diffusionでも使われている。画像認識の基盤モデルを作る試み。膨大な(image, text)ペアから事前学習し、ImageNet1kを含む様々なタスクをゼロショットで（classに対応するtext指定するだけで）めち…

2023-03-17

High-Resolution Image Synthesis with Latent Diffusion Models

拡散モデル

arxiv.org 概要 Latent Diffusionの論文。Stable DiffusionはLatent Diffusionをベースにしてる。事前に学習したencoder-decoderを利用し、解像度の低いlatent spaceで拡散モデルを学習・推論することにより、効率化。適当に斜め読みした感じでは、元論文…