转载:https://ai.zol.com.cn/894/8944195.html
2024-08-24 07:20:08·[??中关村在线 原创??]·作者:清风与鹿
Meta AI近日推出了一种新的技术——Transfusion,该技术将语言模型和图像生成模型结合到了统一的AI系统中。
传统的图像生成系统通常会使用预先训练好的文本编码器来处理输入的提示词,并与单独的扩散模型相结合以生成图像。许多多模态语言模型的工作原理类似,它们会连接预先训练好的文本模型与其他特定用途的编码器来处理其他类型的模态数据。然而,Transfusion采用单一、统一的Transformer架构,在所有模式下进行端到端训练。
在处理文本和图像时,Transfusion采用不同的损失函数:对于文本任务,使用“下一个标记预测”;而对于图像任务,则使用“扩散”。为了同时处理文本和图像数据,首先将图像转换为图像片段序列。这样做可以使得模型在一个序列中同时处理文本标记和图像片段,并且特殊的注意力掩码能够捕捉到内部关系。
与现有方法Chameleon相比,Transfusion保留了连续表示法,并避免了量化造成的信息损失。实验表明,“融合”的效果更好:它取得了与专门设计的模型相似的结果,但计算量却大大减少;并且在处理文本方面也有了提升。
研究人员在2万亿个文本和图像标记上训练了一个70亿参数的模型。该模型在图像生成方面取得了与成熟系统如DALL-E 2等相似的结果,并且还能够处理文本。
本文属于原创文章,如若转载,请注明来源:Meta AI发布统一语言建模与图像生成技术:性能逼近DALL-E 2https://ai.zol.com.cn/894/8944195.html