iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

拡散モデル

Classifier-Free Diffusion Guidance

arxiv.org huggingface.co この調整できるguidance scaleってどういう仕組みなのか分からなくなったので調べてみた。 ImaGenの論文を見るとこう書いてある(P.4) 一見0≦w≦1で重みつき平均の式……かと思いきや、これでw>1にするらしい。それによって、よりcondi…

FID & CLIP score

こういうやつの意味を理解する。 wandb.ai FID (Frechet Inception Distance) torchmetrics.readthedocs.io Inception V3モデルを利用した指標。生成画像と、リアル画像の、Inception V3による出力feature vectorの分布の違いをFrechet Distanceというので計…

Learning Transferable Visual Models From Natural Language Supervision

arxiv.org 概要 CLIPの論文。CLIPのtext encoderがstable diffusionでも使われている。 画像認識の基盤モデルを作る試み。膨大な(image, text)ペアから事前学習し、ImageNet1kを含む様々なタスクをゼロショットで(classに対応するtext指定するだけで)めち…

High-Resolution Image Synthesis with Latent Diffusion Models

arxiv.org 概要 Latent Diffusionの論文。Stable DiffusionはLatent Diffusionをベースにしてる。 事前に学習したencoder-decoderを利用し、解像度の低いlatent spaceで拡散モデルを学習・推論することにより、効率化。 適当に斜め読みした感じでは、元論文…

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

arxiv.org やりたいこと 拡散モデルにて、主題を固定してそいつに関する新しい絵を描画させたい場合の方法を提案。主題に関する画像が何枚か手に入るとする。 手法 基本的なアイディアは、それらの画像でfinetuneする、というだけ。 'sks' や 'djv' みたいな…

An Introduction to Variational Autoencoders

arxiv.org Stable Diffusionでも使われているVAEについて復習。有名な技術なのでわかりやすい解説が色々あるだろうと色々解説を探したが、結局Kingmaご本人のこれが一番わかりやすかった。 生成モデル $x$: 観測されたデータ点たちの集合。 $p^*(x)$: 真の確…

Adding Conditional Control to Text-to-Image Diffusion Models

arxiv.org そういやControlNetの論文読んだけど、なるほどみが深かった。ああいう条件をつけて学習すること自体は拡散モデル的に全く自然で普通のことなんですね。しかし、その種のデータが少ないため、いかに表現力を壊さずfinetuneするかが論点だった、と…