Meta的Llama3.2开源了,支持多模态,支持手机部署,有 1B、3B、11B和90B四个型号
1、1B和3B,适用于移动端和边缘设备,支持128K上下文
1B、3B在多语言文本生成和工具调用能力上优秀,能使开发都构建个性化的、设备本地的代理应用程序
—支持:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语
—上下文:支持128k token的长上下文
—性能:3B模型在IFEval基准测试上的表现与8B模型相当
2、多模态11B和90B可处理文本/图像输入
可以对高分辨率图像进行推理,包括图表和图形在内的文档级理解、图像描述以及基于自然语言描述在图像中定向定位对象等视觉定位任务
MMMU(验证集):11B达到50.7%,90B达到60.3%
VQAv2(测试集):11B达到75.2%,90B达到78.1%
DocVQA(测试集):11B达到88.4%,90B达到90.1%
博客及模型下载:https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama32&continueFlag=8269300b5cb71daf6eb4b43f1ec7b9f4