【人工智能】大语言模型需要更好的视觉基础来理解含义 | 谢赛宁 | DiT作者 | 多模态语言模型的视觉缺陷 | 基于视觉搜索引导的多模态大模型 | GPT-4V | CLIP | SEAL