AnyText是一种基于扩散的多语言视觉文本生成和编辑模型,它可以在图像中生成或修改任意精准的文本。AnyText支持中文、日文、韩文、英语等多种语言,可帮助电商、广告平面设计、电影制作、动画设计师、插画师、网页设计、UI设计师、数字营销等领域的人员,提供高精准、自定义的文生图像服务。
AnyText是阿里云开源的一个项目,它利用了深度学习、自然语言处理、计算机视觉等技术,实现了对图像中文本的检测、识别、生成和编辑。
效果展示:
AnyText的功能特点:
1、多语言支持:AnyText可以在图像中生成或修改中文、日文、韩文、英语等多种语言的文本,无需额外的语言模型或字体库。
2、高精准度:AnyText可以生成或修改与图像背景、风格、颜色、透视等匹配的文本,保证文本的清晰度和可读性。
3、高自定义性:AnyText可以根据用户的需求,生成或修改图像中的文本内容、位置、大小、字体、颜色等属性,实现个性化的文生图像服务。
4、高效性:AnyText可以在GPU上快速地生成或修改图像中的文本,无需复杂的后处理或优化。
AnyText的原理介绍
这个技术的名字是 AnyText,目前支持中、英、日、韩等多语言文字。
AnyText 基于Stable Diffusion技术,包含两个核心模块:隐空间辅助模块和文本嵌入模块。
- 隐空间辅助模块对三类辅助信息(字形、文字位置和掩码图像)进行编码并构建隐空间特征图像,用来辅助视觉文字的生成;
- 文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦,使用图像编码模块单独提取字形信息后再与语义信息做融合,既有助于文字的书写精度,也有利于提升文字与背景的一致性。
训练阶段,除了使用扩散模型常用的噪声预测损失,我们还增加了文本感知损失,在图像空间对每个生成文本区域进行像素级的监督,以保证文字书写的精度。
推理生成时,嵌入的文本输送给绘图模块时被用星号代替,在嵌入空间预留位置并用符号填充。然后文本嵌入模块得到的字形图像被输入预训练OCR模型,提取出字形特征,然后调整其维度并替换预留位置中的符号,得到新的序列。
这个模型的训练数据集为AnyWord-3M(即将开源),主要来源于互联网开源数据集,包括LAION-400M, Noah-Wukong以及部分OCR数据集,按照一定规则从中筛选出包含文字的图片,并使用OCR模型和BLIP-2模型进行全自动打标,总计得到300万高质量的图文对,涵盖自然图像、电影海报、书籍封面等各类场景。
开源地址:https://github.com/tyxsspa/AnyText
论文地址:https://arxiv.org/abs/2311.03054
在线demo:https://huggingface.co/spaces/modelscope/AnyText
AnyText的发展历程
1、2023年3月,阿里巴巴的研究人员提出了AnyText的概念和设计,将扩散模型和OCR模型结合起来,实现了在图像中生成或编辑多语言文本的能力。
2、2023年6月,阿里巴巴的研究人员发布了AnyWord-3M数据集,这是一个包含300万个图像-文本对的数据集,提供了中文、英文、日文、韩文等多种语言的OCR注释。
3、2023年9月,阿里巴巴的研究人员开源了AnyText的代码和模型,让更多的开发者和用户可以使用和改进AnyText。
4、2023年12月,阿里巴巴的研究人员发布了AnyText的最新版本,增加了文本控制扩散损失和文本感知损失,提高了生成文本的精准度和自然度。
5、2024年1月,阿里巴巴的研究人员展示了AnyText在电商、广告、电影、动画、插画、UI等多个领域的应用案例,展示了AnyText的强大功能和广泛适用性。
AnyText的应用场景:
1、电商:AnyText可以帮助电商平台或商家,快速地生成或修改商品图片中的文本,如价格、折扣、标签、品牌等,提高商品的吸引力和转化率。
2、广告:AnyText可以帮助广告设计师,快速地生成或修改广告图片中的文本,如标题、 slogan、联系方式等,提高广告的创意和效果。
3、电影:AnyText可以帮助电影制作人,快速地生成或修改电影画面中的文本,如对话、字幕、标志等,提高电影的质量和观赏性。
4、动画:AnyText可以帮助动画设计师,快速地生成或修改动画画面中的文本,如对话、字幕、标志等,提高动画的质量和观赏性。
5、插画:AnyText可以帮助插画师,快速地生成或修改插画中的文本,如标题、注释、气泡等,提高插画的美观和表达力。
6、网页:AnyText可以帮助网页设计师,快速地生成或修改网页中的文本,如导航、按钮、链接等,提高网页的交互和功能性。
7、UI:AnyText可以帮助UI设计师,快速地生成或修改UI中的文本,如菜单、图标、提示等,提高UI的美观和易用性。
8、数字营销:AnyText可以帮助数字营销人员,快速地生成或修改数字媒体中的文本,如社交媒体、博客、视频等,提高数字媒体的传播和影响力。
数据统计
相关导航
MoonShot AI(又名“月之暗面AI”)是一家致力于人工智能技术创新的公司,专注于开发和优化大型AI模型。我们的先进人工智能预测技术正改变未来。从股市分析到疫苗研发,我们的大模型技术提供了前所未有的准确性和速度。
FaceChain
FaceChain 是一款基于深度学习的工具,专注于生成个人数字形象。用户只需上传一张照片,FaceChain 即可在 10 秒内生成多种风格的个人写真。该工具支持自定义风格模型训练,兼容 ControlNet 和 LoRA 模型,广泛应用于虚拟现实、游戏设计和数字营销等领域。通过 FaceChain,用户可以轻松创建高度真实且可控的个人画像。
SeamlessM4T
SeamlessM4T是Meta推出的一款多语言和多任务模型,能够处理语音识别、文本翻译和语音合成等任务。它支持近100种语言,可以将语音转录为文本,再进行翻译,甚至可以将翻译后的文本转化为语音。
ClotheDreamer
ClotheDreamer 是一种基于 3D 高斯方法的工具,用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法,使得服装和人体模型可以分别优化。
妙笔
妙笔是阿里巴巴最新开源的中文文生图模型,它与经典的Stable Diffusion 1.5版本结构相同,兼容现有的lora、controlnet等主流插件及其权重。妙笔的特点是用户可以直接输入中文进行文生图操作,生成的图像效果逼真。例如,输入“枯藤老树昏鸦,小桥流水人家。水墨画。”,妙笔能够理解诗句中的意境并生成相应的图像。
UniVG
UniVG是百度推出的一种统一模态视频生成系统。它能够处理多种输入模态,如文本和图像,并生成与输入语义高度一致的视频。UniVG采用了多条件交叉注意力技术和偏置高斯噪声方法,以提高生成视频的质量和保留原始内容。
天壤小白大模型
天壤小白是基于语言大模型的AI应用开放平台,无需代码开发,即可快速、灵活地搭建个性化的AI应用。通过提示词工程、语义搜索、向量数据库等各类AI工具组件,破解幻觉难题,为开发者和企业提供一站式的大模型应用服务。覆盖知识管理、市场销售、客户服务、内容生成、辅助决策、多语言翻译等多个场景。
Boximator
Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动,从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说,Boximator可以通过文本精准控制生成视频中人物或物体的动作,能生成包含多个角色以及特定类型运动的复杂场景,并能精确生成物体和背景的细节。
暂无评论...