arxiv.org 概要 CLIPの論文。CLIPのtext encoderがstable diffusionでも使われている。 画像認識の基盤モデルを作る試み。膨大な(image, text)ペアから事前学習し、ImageNet1kを含む様々なタスクをゼロショットで(classに対応するtext指定するだけで)めち…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。