
视觉 Token 不错与 LLMs 词表无缝对皆了!开云kaiyun.com
V ² Flow,基于 LLMs 不错完结高保真自追溯图像生成。
跟着 ChatGPT 掀翻自追溯建模翻新后,连年来霸术者们出手探索自追溯建模在视觉生成任务的应用,将视觉和文本数据调处在" next-token prediction "框架下。
完结自追溯图像生成的关节是蓄意向量化 ( Vector-Quantization ) 的视觉 Tokenizer,将视觉内容蹧蹋化成近似于大讲话模子词表的蹧蹋 Token。
现存设施虽取得发达,却长久面对两大枷锁:
1、传统视觉 tokenizer 生成的蹧蹋表征与 LLM 词表存在显贵的散布偏差。
2、维度吊祭:图像的二维结构迫使大讲话模子以逐奇迹貌预料视觉 token,与一维文本的连贯语义预料存在本质冲突。
结构性与特征散布性的双重割裂,表露了现时自追溯视觉生成的首要舛误:枯竭大要既保证高保真图像重建,又能与预检修 LLMs 词汇表在结构上和特征散布上调处的视觉 tokenizer。科罚这一问题关于完结存效的多模态自追溯建模和增强的指示免除智力至关挫折。
因此,一个中枢问题是:
能否蓄意一种视觉 tokenizer,使生成的蹧蹋视觉 token 在保证高质料视觉重建的同期,与预检修 LLMs 词汇表完结无缝交融?
调处视觉 Token 与大讲话模子词表
最新开源的 V ² Flow tokenizer,初度完结了将视觉内容平直镶嵌现存大讲话模子的词汇空间,在保证高质料视觉重建的同期从根蒂上科罚模态对皆问题。总体而言,V ² Flow 主要包括三点中枢孝敬:
视觉词汇重采样器。
如图 1 ( a ) ,将图像压缩成紧凑的一维蹧蹋 token 序列,每个 token 被表现为大讲话模子(举例 Qwen、LLaMA 系列)词汇空间上的软类别散布。这一蓄意使得视觉 tokens 不错无缝地镶嵌现存 LLM 的词汇序列中。换言之,图像信息被平直翻译成 LLM "听得懂"的讲话,完结了视觉与讲话模态的对皆。
在图 1 ( b ) 中,经由重采样器处理后,视觉 tokens 的潜在散布与大型讲话模子(LLM)的词汇表高度一致。这种在结构和潜在散布上的高度兼容性,大要缩小视觉 tokens 平直融入已有 LLM 的复杂性。

△ 图 1 视觉词汇重采样器的中枢蓄意。
掩码自追溯流匹配编码器。
为了完结蹧蹋化视觉 token 的高保真视觉重建,V ² Flow 提倡了掩码自追溯流匹配解码器。该解码器聘请掩码 Transformer 编码 - 解码结构,为视觉 tokens 补充丰富的高下文信息。增强后的视觉 tokens 用于条款化一个稀零蓄意的速率场模子,从设施正态先验散布中重建出一语气的视觉特征。在流匹配采样阶段,该解码器聘请近似 MA 的神情,以" next-set prediction "的神情冉冉完成视觉重建。
比拟于近期提倡的仅依赖掩码编码器 - 解码器结构的 TiTok,V2Flow 自追溯采样的上风是大要在更少的视觉 token 数目下完结更高的重建质料,有用训诲了压缩后果。

△ 图 2 掩码自追溯流匹配解码器表现图以及采样阶段算法进程
端到端自追溯视觉生成。
图 3 展示了 V ² Flow 协同 LLMs 完结自追溯视觉生成的进程。为促进两者无缝交融,在已有 LLM 词汇表基础上膨胀了一系列特定视觉 tokens,并平直应用 V ² Flow 中的码本进走运滚动。检修阶段构建了包含文本 - 图像对的单轮对话数据,文本领导手脚输入指示,而蹧蹋的视觉 tokens 则手脚预料方针反应。
在推理阶段,经过预检修的 LLM 凭据文本指示预料视觉 tokens,直至预料到 token 为止。随后,蹧蹋视觉 tokens 被送入 V ² Flow 解码器,通过流匹配采样重建出高质料图像。

△ 图 3 V ² Flow 与预检修 LLMs 交融完结自追溯视觉生成的举座进程。实验限度
重建质料方面,V ² Flow 岂论是在 ImageNet-1k 测试数据集的 256 和 512 鉴别率下均取得了竞争性的重建性能。
比拟于字节提倡的一维蹧蹋化 tokenizer TiTok 比拟,V ² Flow 应用更少的蹧蹋 tokens 完结了更高质料的图像重建,显贵训诲了举座压缩后果。

文本带领图像生成方面,实验限度标明,比拟于现时两种最先进的自追溯生成模子 Janus-Pro-7B 和 Lumina-mGPT-7B,V ² Flow+LLaMA2-7B 大要愈加准确地捕捉文本领导中的语义细节,展示了极具竞争力的生成性能。

开源生态与团队招募:共建多模态异日
开源欢喜:让时刻普惠每一位探索者
开源是激动 AI 时刻进化的中枢能源。本次发布的 V ² Flow 框架已好意思满公开检修与推理代码库,设立者可基于现存代码快速复现论文中的中枢实验。更令东谈主期待的是,团队预报将于近期连续发布:
512/1024 鉴别率预检修模子:撑握高清图像重建与生成
自追溯生成模子:集成 LLaMA 等主流大讲话模子的开箱即用决策
多模态膨胀器具包:异日将撑握视频、3D、语音等跨模态生成任务
加入咱们:共创下一代多模态智能
V ² Flow 作家团队现招募多模态生成算法霸术型实习生!要是你渴慕站在 AI 内容生成的最前沿,参与界说自追溯架构的异日,这里将是你完结粗心的绝佳舞台。
咱们作念什么?
探索文本、图像、视频、语音、音乐的调处自追溯生成范式
构建撑握高清、长序列、强语义联系的多模态大模子
攻克数字东谈主、3D 生成、实时交互创作等产业级应用发愤
咱们需要你具备:
硬核时刻力
闪耀 Python,熟习使用 PyTorch/TensorFlow 等框架
真切相识 Diffusers、DeepSpeed 等 AIGC 器具链
在 CV/NLP 范围顶级会议(CVPR、ICML、NeurIPS 等)发表论文者优先
极致创新欲
对多模态生成、自追溯架构、扩散模子等时刻有浓厚兴致
曾在 Kaggle、ACM 竞赛等赢得 Top 排行者优先
有开源名堂孝敬或寂然设立考验者优先
送达神情:zhangguiwei@duxiaoman.com
论文连续:
https://arxiv.org/abs/2503.07493
开源名堂连续:
https://github.com/Davinci-XLab/V2Flow
一键三连「点赞」「转发」「提神心」
接待在驳倒区留住你的念念法!
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名堂主页连续,以及联系神情哦
咱们会(尽量)实时复兴你

� � 点亮星标 � �
科技前沿发达逐日见开云kaiyun.com