Meta FAIR团队发布新多模态模型Transfusion

2024/08/29

Meta FAIR团队发布了一个名为Transfusion的新模型，这是一个将文本（离散数据）与图像（连续数据）生成能力整合在同一个Transformer架构中的多模态模型。

传统的方法通常需要多个模型分别处理不同任务，例如，一个模型用于生成文本，另一个模型生成图像。这种方法可能导致效率低下以及增加系统复杂度的问题。

另一种处理方式是通过量化，将图像的连续数据转化为离散形式，使得原本用于处理文本的模型也能处理图像。

然而，这种量化处理可能导致信息损失，进而影响模型的性能和生成质量。

Transfusion模型的优势在于，它能够在同一个架构中同时优化文本和图像的生成。

例如，就用这一个模型，不仅可以精准理解文本并生成相应的图像，还能有效地读取图像内容，并生成相应的描述性文本。

实验结果显示，Transfusion在多种基准测试中表现优异，不仅比现有模型如Chameleon效率更高，还具备更好的扩展性，能够在处理复杂数据时更有效地利用资源，生成高质量的结果。