iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

8-bit Optimizers via Block-wise Quantization

arxiv.org

背景

もともとCLIPの論文を読んでた際、"half-precision Adam statistics"という記述があって気になった。が、今はそれどころか8bitでやるこの論文の実装が結構使われてるっぽい気がする?

実装

github.com