首页研究报告机构研究人工智能殷述康:多模态大语言模型领域进展分享
在在

文档

2278

关注

0

好评

0
PDF

殷述康:多模态大语言模型领域进展分享

阅读 741 下载 38 大小 4.28M 总页数 0 页 2025-04-01 分享
价格:¥ 9.90
下载文档
/ 0
全屏查看
殷述康:多模态大语言模型领域进展分享
还有 0 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 0 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
多模态大语言模型领域进展分享殷述康/博士在读DataFunSummit 2024ataFun.●多模态大语言模型介绍●多模态大语言模型演进●团队相关工作介绍●未来展望ataFun.01运动背景介绍运动脉运营动脉运营动脉运营动脉ataFun.背景-LLM正走向多模态·大语言模型①LM①是近几年来最火热的方向之一·可以解决各种传统NLP任务,如文本分类、命名实体识别等可以做更高级的任务·作为聊天机器人,按照要求扮演某个角色(强大的指令遵循能边)·做高阶的推理任务,如写代码、解数学问题等(强大的推理能力,C0T进一步增强)·然而LLM存在固有的限制·无法处理多模态的输入,导致有些任务无法做或者很难做,如根据网站截图给出源代码、理解一张表情包的含义·无法获取更多的多模态的世界知识,如名画、名人等ataFun.背景-LLM正走向多模态·多模态大语言模型MLM)的兴起GPT-4V、GPT-4o谷歌的Gemini-ProFuyu-8B回SPHINXAvailable/Unavailable1-3●10-122024在短短的两年间,已有上百个模Video-LLaMA 3D-LLMGPT-4VQwen-YLVidee-LLaVA型涌现,包括大企业的闭源模型LLAMA-VID和学术社区的开源模型探索。LLaVA-MedLLAVA-I5●MhiGPT-4BLIP.2LTU20222023BPLUC-OmlYin,Shukang,et al."A survey on multimodal large language models."arXiv:2306.13549ataFun.背景-MLLM能做些什么Prompt:·能做传统视觉/多模态任务Prompt:Prompt:Count the number of people in the image.GPT-4V:GPT-4V:Visualization of Detected Bbox:GPT-4V:看起来很可爱。它的身體很小,四陵There are 4 people in the image.锰相.正在小心翼翼地在草地上行走。Caption任务计数任务定位任务Cited from arXiv:2309.17421ataFun.背景-MLLM能做些什么·能做更复杂的复合型任务,比如基于视觉的感知和理解任务;Prompt:Chart Understanding and ReasoningPrompt:GPT-4V:Total fueling costGPT-4V:图表推理根据图表写代码Cited from arXiv:2309.17421ataFun.02多模态大语言模型介绍ataFun.介绍-MLLM的基本方面·由于大企业的模型是闭源的,学术界正积极研究探索开源的模型。模型架构数据与训练方法模型评估ataFun.介绍-MLLM的架构·常用的架构一般包含三个部分:·编码器Text·连接器TextAudio·大语言模型LLMVideoModality●onnectorEncoderLLMK0Q-FormerMLPLearnable QueriesYin,Shukang,et al."A survey on multimodal large language models."arXiv:2306.13549ataFun.介绍-MLLM的架构·视觉编码器·常用的是基于CLP预训练的ViTImageImageEncoderEncoder·对于常见的224x224分辨率图片,patch大小为14,最后共!得到14x14=256个tokensContrastive LossContrastive Loss只金丝猴的照片TextTextEncoderEncoderCited from arXiv:2211.01335ataFun.介绍-MLLM的架构·连接器Language ResponseX:MLP结构Language Modelf·不改变视觉token的数量,使用线性层或者多层感知机做投影。Projection WHVision EncoderXa Language InstructionCited from arXiv:2304.08485Q-FormerQ-Former压缩图片token至固定的数量,提高运算效率Feed ForwardFeed Forward·Q指quey,使用一组可学习的Cross Attentionquery向量从视觉token中抽取更紧凑的表征信息ImageEmbeddingsQueriesInstructionCited from arXiv:2305.06500ataFun.介绍-MLLM的数据和训练方法·第一阶段:模态对齐训练Stage-1:Pre-training·将视觉的语义空间与文本空间对齐·一种做法是冻结LLM,训练视觉编Pre-trained LLM码器和连接器yVisual Abstractor·通常使用大量的图文配对数据训练,Visual Encoder如caption数据。输入图片,预测图片的文本描述A horse carrying a large load of hay andBunk bed with a narrow shelf sittingThe man at bat readies to swing at thetwo people sitting on it.underneath it.pitch while the umpire looks on.ataFun.介绍-MLLM的数据和训练方法·第二阶段:指令微调训练·提升模型的指令遵循能力,学习泛化到各种任务·通常使用各种任务的数据,如VQA数据、检测数据等,并改造为指令格式(多轮对话形式)·输入图片和指令,预测回答图中是比尔盖茨,微软的创始人之一,描述下他的打粉图中是比尔·盖茨本人,他穿着一件黑色的毛衣,看起来比较休闲。右边的男人是谁?The man on the right in the image is Yao Ming.ataFun.介绍-MLLM的评测·常规任务Benchmark·一般聚焦某个具体的特定任务,关注特定指标·VQA任务:要求模型基于图片内容进行回答,常关注浅层元素如物体类别、属性,有时涉及浅层推理,回答一般比较简单。·一般使用准确率作为评估指标What color are her eyes?How mamy slices of pizza are there?Is this person expecting company?What is the mustache made of?What is just under the tree?ataFun.
文档评分
    请如实的对该文档进行评分
  • 0
发表评论

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取运营礼包

下载

便携运营智库

立即下载APP

工具

运营工具导航

AI工具导航

帮助

帮助中心

常见问题

顶部