iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-03-23から1日間の記事一覧

Flamingo: a Visual Language Model for Few-Shot Learning

LLM

arxiv.org DeepMindの、VLM(Visual Language Model) / LMM(Large Multimodal Model)の論文。文中に画像が現れてるようなものを読んで、画像と文章の両方を加味した文章生成ができる。例えばin-context learningを通じてVisual QAなどができる。 アプローチ e…