Meta FAIR团队发布了一个名为Transfusion的新模型,这是一个将文本(离散数据)与图像(连续数据)生成能力整合在同一个Transformer架构中的多模态模型。
传统的方法通常需要多个模型分别处理不同任务,例如,一个模型用于生成文本,另一个模型生成图像。这种方法可能导致效率低下以及增加系统复杂度的问题。
另一种处理方式是通过量化,将图像的连续数据转化为离散形式,使得原本用于处理文本的模型也能处理图像。
然而,这种量化处理可能导致信息损失,进而影响模型的性能和生成质量。
Transfusion模型的优势在于,它能够在同一个架构中同时优化文本和图像的生成。
例如,就用这一个模型,不仅可以精准理解文本并生成相应的图像,还能有效地读取图像内容,并生成相应的描述性文本。
实验结果显示,Transfusion在多种基准测试中表现优异,不仅比现有模型如Chameleon效率更高,还具备更好的扩展性,能够在处理复杂数据时更有效地利用资源,生成高质量的结果。