你的位置:twitter 拳交 > 快播xx电影 >
第四色网主页 OCR-Omni来了,字节&华师颐养多模态笔墨浮现与生成
发布日期:2024-10-21 11:03    点击次数:134

第四色网主页 OCR-Omni来了,字节&华师颐养多模态笔墨浮现与生成

多模态生成新打破,字节 & 华师团队打造 TextHarmony,在单一模子架构中完毕模态生成的颐养第四色网主页,并入选 NeurIPS 2024。

以前 , 视觉笔墨领域的大模子参议聚焦于单模态生成,诚然在个别任务上完毕了模子的颐养,但很难在 OCR 领域的大都任务上作念到全面整合。

举例,Monkey 等视觉谈话模子(VLM)擅长笔墨检测、识别和视觉问答(VQA)等文本模态生成任务,却无法胜任笔墨图像的生成、抹除和裁剪等图像模态生成任务。反之,以 AnyText 为代表的基于扩散模子的图像生成模子则专注于图像创建。因此,OCR 领域亟需一个大要颐养多模态生成的大模子。

为处置这一迂回,字节越过与华东师范大学的聚会参议团队提议了立异性的多模态生成模子 TextHarmony,不仅精通视觉文本的感知、浮现和生成,还在单一模子架构中完毕了视觉与谈话模态生成的谐和颐养。

现在论文一经上传 arXiv,代码也行将开源,归并可在文末领取。

TextHarmony: 中枢孝顺

TextHarmony 的中枢上风在于其告捷整合了视觉文本的浮现和生成才调。传统参议中,这两类任务频繁由颓败模子处理。TextHarmony 通过会通这两大类生成模子,完毕了视觉笔墨浮现和生成的同步进行,从而统筹了 OCR 领域的大都任务。

参议标明,视觉浮现和生成之间存在显耀各异,班师整合可能导致严重的模态不一致问题。具体而言,多模态生成模子在文本生成(视觉感知、浮现)和图像生成方面,相较于挑升的单模态模子,性能出现显著退化。

数据裸露,多模态生成模子在文本生成任务上较单模态模子成果裁汰 5%,图像生成任务上最高裁汰 8%。而 TextHarmony 告捷缓解了这一问题,其在两类任务上的推崇均接近单模态行家模子水平。

手艺立异

TextHarmony 接受了 ViT、MLLM 和 Diffusion Model 的组合架构:

ViT 隆重图像到视觉 token 序列的转念。

MLLM 处理视觉 token 和文本 token 的交叉序列,输出两类 token:

文本 token 经文本解码器升沉为文本输出。

视觉 token 与文本 token 结合,行为 Diffusion Model 的条目相同,生成方针图像。

这种结构完毕了多模态现实的全面浮现与生成。

Slide-LoRA:处置有缠绵

为克服磨练历程中的模态不一致问题,参议者提议了 Slide-LoRA 手艺。该圭臬通过动态整合模态特定和模态无关的 LoRA(Low-Rank Adaptation)行家,在单一模子中完毕了图像和文本生成空间的部剖判耦。

Slide-LoRA 包含一个动态门控收罗和三个低秩剖判模块:

模态特定 LoRA 行家聚焦于特定模态(视觉或谈话)的生成任务。

模态无关 LoRA 行家处理跨模态的通用特征。

动态门控收罗凭证输入特征,机动诊疗不同业家的参与度。

DetailedTextCaps-100K: 高质地数据集

为提拔视觉文本生成性能,参议团队建树了 DetailedTextCaps-100K 数据集。该集利用闭源 MLLM(Gemini Pro)生成精明的图像描述,为模子提供了更丰富、更聚焦于视觉和文本元素的磨练资源。

磨练计策

哥也色中文

TextHarmony 接受两阶段磨练圭臬:

首阶段利用 MARIO-LAION 和 DocStruct4M 等图文对预磨练对皆模块和图像解码器,构建基础的文本生成与图像生成才调。

次阶段诈欺视觉文本的生成、裁剪、浮现、感知四类数据进行颐养微调。此阶段敞开 ViT、对皆模块、图像解码器和 Slide-LoRA 的参数更新,以赢得颐养的多模态浮现与生成才调。

实验评估

参议者对 TextHarmony 在视觉文本场景下进行了全面评估,涵盖浮现、感知、生成与裁剪四个维度:

视觉文智力悟:TextHarmony 显耀优于多模态生成模子,性能接近 Monkey 等专科笔墨浮现模子。

视觉文本感知:在 OCR 定位任务上,TextHarmony 越过了 TGDoc、DocOwl1.5 等驰名模子。

视觉文本裁剪与生成:TextHarmony 大幅率先于现存多模态生成模子,且与 TextDiffuser2 等专科模子绝顶。

笔墨生成成果对比

笔墨裁剪成果对比

笔墨图像感知与浮现可视化

回来与瞻望

TextHarmony 行为 OCR 领域的多功能多模态生成模子,告捷颐养了视觉文智力悟和生成任务。通过立异的 Slide-LoRA 手艺,它有用处置了多模态生成中的模态不一致问题,在单一模子中完毕了视觉与谈话模态的谐和颐养。TextHarmony 在视觉笔墨感知、浮现、生成和裁剪方面展现出出奇性能,为复杂的视觉文本交互任务开垦了新的可能性。

这项参议不仅股东了 OCR 手艺的进步,也为东说念主工智能在浮现和创造方面的发展提供了弥留参考。翌日,TextHarmony 有望在自动文档处理、智能现实创作、磨真金不怕火辅助等多个领域说明弥留作用,进一步股东东说念主工智能的应用。

论文归并 :   https://arxiv.org/abs/2407.16364

代码开源 :   https://github.com/bytedance/TextHarmony(行将开源)

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿现实‍

附上论文 / 名堂主页归并,以及关系款式哦

咱们会(尽量)实时回应你

点这里� � 存眷我,铭记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日重逢 ~  





Powered by twitter 拳交 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024