标签:CSAIL

理解语言模型的视觉知识

主要以文本为训练基础的 LLM 可以通过具有自我修正功能的代码生成复杂的视觉概念。研究人员利用这些插图训练无图像计算机视觉系统来识别真实照片。