起首:机器之心Pro
AIxiv专栏是机器之心发布学术、技巧内容的栏目。往时数年,机器之心AIxiv专栏承袭报说念了2000多篇内容,笼罩天下各大高校与企业的顶级实验室,灵验促进了学术交流与传播。要是您有优秀的使命思要共享,接待投稿或者研究报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
TinyLLaVA 技俩由清华大学电子系多媒体信号与智能信息处治实验室 (MSIIP) 吴及证据团队和北京航空航天大学东说念主工智能学院黄雷考验团队携手打造。清华大学 MSIIP 实验室长久勉力于贤惠医疗、当然说话处治与学问发现、多模态等研讨鸿沟。北航团队长久勉力于深度学习、多模态、狡计机视觉等研讨鸿沟。
近日,清华和北航斡旋推出了 TinyLLaVA Factory, 一款因循定制、考验、评估多模态大模子的代码库,代码和模子一齐开源。该代码库以软件工程的工场款式行为联想理念,模块化地重构了 LLaVA 代码库,驻扎代码的可读性、功能的推广性、和实验赶走的可复现性。简陋研讨者和奉大家们更容易地探索多模态大模子的考验和联想空间。
Github 技俩:https://github.com/TinyLLaVA/TinyLLaVA_Factory
论文地址:https://arxiv.org/abs/2405.11788
Hugging Face 模子地址:https://huggingface.co/tinyllava/TinyLLaVA-Phi-2-SigLIP-3.1B or https://huggingface.co/bczhou/TinyLLaVA-3.1B-SigLIP
机器之心 SOTA 模子地址:https://sota.jiqizhixin.com/project/tinyllava
LLaVA 行为多模态社区的优质开源技俩,备受研讨者和诱骗者的醉心;新入坑多模态大模子的入门者们也民风以 LLaVA 技俩行为起先,学习和考验多模态大模子。可是 LLaVA 项筹算代码较为晦涩难解,一朝失慎转变造作,就可能会影响考验赶走,关于生手来说,通常不敢清闲修改其中的细节,给流露和探索多模态大模子的本质细节形成了一定的艰难。
近日,清华和北航斡旋推出 TinyLLaVA Factory,将原来的 LLaVA 代码进行模块化重构,专注于纯粹的代码收场、新功能的可推广性、以及考验赶走的可复现性,让你以最小的代码量,定制并考验属于我方的多模态大模子,同期减少代码造作率!疏通的模子确立、考验数据和考验战术条目下,使用 TinyLLaVA Factory 可考验出比用 LLaVA 代码性能后起之秀的模子。为了让用户更容易地读懂代码和使用模子,TinyLLaVA Factory 技俩还配备了代码文档和 Demo 网站。其总体架构图如下。
数据预处治部分,TinyLLaVA Factory 放手了 LLaVA 代码中烧脑的图片处治和 Prompt 处治历程,提供了尺度的、可推广的图片和文本预处治历程,明晰明了。其中,图片预处治可自界说 Processor,也可使用一些官方视觉编码器的 Processor,如 CLIP ViT 和 SigCLIP ViT 自带的 Image Processor。关于文本预处治,界说了基类 Template,提供了基本的、共用的函数,如添加 System Message (Prompt)、Tokenize、和生成标签 Ground Truth 的函数,用户可通过承袭基类就可减轻推广至不同 LLM 的 Chat Template。
模子部分,TinyLLaVA Factory 很当然地将多模态大模子模块化成 3 个组件 —— 大说话模子组件、视觉编码器组件、中间的聚合器组件。每个组件由一个工场对象逼迫,平定新模子的注册和替换,使用户不详更容易地替换其中任何一个组件,而不会拖累到其他部分。
TinyLLaVA Factory 为每个组件提供了现时主流的模子,如下表所示。
考验器仍然仿照 LLaVA,选拔 Hugging Face 自带的 Trainer,集成了 Gradient Accumulation,Wandb 作念日记纪录等特质,雷同因循 DeepSpeed ZeRO2/ZeRO3 并行考验。关于评估部分,TinyLLaVA Factory 提供了 SQA/GQA/TextVQA/VQAv2/POPE/MME/MM-Vet/MMMU 8 个 Benchmark 的评估。
接下来,划要点!TinyLLaVA Factory Github 技俩还手把手教你定制我方的多模态大模子。只需马虎地添加 1-2 个文献,就不错减轻替换 LLM 组件、视觉编码器组件、聚合器组件。
拿替换 LLM 模子例如。据使用过 LLaVA 代码库的同学反映,LLaVA 代码思替换非 Llama 系列的说话模子容易出错。而 TinyLLaVA Factory 不错简陋地替换说话模子,只需添加 2 个 py 文献,一个是 Chat Template 文献,一个是模子文献。替换视觉编码器时,也只需添加 1 个 py 文献,承袭视觉编码器的基类即可。
TinyLLaVA Factory 还因循对考验战术进行定制,对使用者来说只需在确立文献中进行修改,就能在 pretraining 和 finetuning 阶段对 3 个模块组件(LLM / 视觉编码器 / 聚合器)收场冻住 / 全量微调 / 部分微调 /lora 微调的率性组合。号称小白易上手式的教程!
早在本年 2 月,TinyLLaVA 技俩就猛烈地捕捉到了 3B 以下 LLM 在多模态大模子中的后劲,欺诈市面主流的小限制 LLM,考验了一系列多模态大模子,参数目在 0.89B-3.1B。实验赶走标明经过高质料的数据取舍和愈加概述的考验战术世博体育app下载,欺诈小限制 LLM 雷同不错收场和大模子邻近致使愈加优胜的任务发扬。(细节详见技巧敷陈 https://arxiv.org/abs/2402.14289)