ChatGPT文生图功能迎重大升级：准确生成文字商用边界大幅拓展

分类：科技

浏览数：9393

2025-03-26

财联社3月26日（编辑史正丞）chatgpt 上线多年后愈发鸡肋的图像生成功能，终于迎来了历史性的升级。

openai首席执行官奥尔特曼在周二的直播活动中表示，正式推出基于gpt-4o模型的原生图像生成功能——模型直接从文本提示生成图像，不再调用独立的dall-e文生图模型。

利用gpt-4o的多模态能力，chatgpt在图像生成时能更加精确地遵循指示、更精确地渲染图像上的文字，同时支持多轮迭代优化图像时保持角色形象一致。

chatgpt于2022年底上线，最初只能进行文字聊天。大约一年后，openai发布第三代图像生成模型dall-e 3，并集成到chatgpt，但两者一直是互相独立的系统。在最初的新鲜感过去后，ai图像生成器“理解提示词能力差”，特别是“无法准确生成图片中的文字”严重阻碍这项功能在教育、职场等领域的应用。

随着今年阿里巴巴、谷歌先后推出能准确生成文字的文生图模型，openai终于补上这个短板。

在周二的演示中，openai展示了新一代chatgpt 的图像功能升级到了何种程度。

首先，chatgpt已经能够大致准确地按照提示词，生成图像中的文本。在演示中，ai成功按照要求生成一整页的讲话文本，同时没有出现错别字。奥尔特曼感慨称，能在图像生成功能中完美呈现文字本不应该是那么令人赞叹的事情，但我们却等了这么久。

从官方给出的更多示例来看，不管是生成黑板板书，还是印刷体、展示科学常识的绘图，chatgpt在生成图像文字领域终于从完全不能用，达到接近商用的程度。

同时，chatgpt的图像编辑功能，也变得更加有用。

在演示中，两名研究人员与奥尔特曼合影，然后要求chatgpt将合照转化为动画画风。

结合gpt-4o的知识库和终于能把字写清楚的能力，chatgpt也能通过简单的提示词，生成有关相对论的漫画彩图。

说到漫画，现在chatgpt也能根据漫画草稿，一键生成上完色的成品。同时也支持上传图片更换漫画里的主要角色。

从商业应用方面来讲，现在模型也能根据用户上传的照片和卡片模板，自定义组合生成新的卡片，并按照要求展示图片和文字。

gpt‑4o也可以根据聊天上下文的基础来生成图片和文字，所以生成的一系列图像将具有一致性，这对于设计游戏角色而言相当重要。

openai承认，新的图像生成器也存在一些局限性，例如也会受到模型幻觉影响，同时在密集文字和非拉丁语文字的图像生成方面，也更容易出现问题。

从周二开始，基于gpt‑4o的图像生成功能向所有免费和付费用户推出，未来几周内开发者将能通过api调用这项功能。

（财联社史正丞）

科技分类资讯推荐