
Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。并且官方团队发布了在 768 分辨率上训练的模型权重,此版本中服装和文本提示的强度可以独立调整。以及支持与IP-Adapter-FaceID、ControlNet-Openpos模型一起使用,能够使用肖像和参考姿势图像作为附加条件。这个项目的目标是为图像合成提供更多的控制和灵活性,使得用户能够根据自己的需求创建更具个性化和创意的图像。
- MagicClothing权重文件:https://huggingface.co/ShineChen1024/MagicClothing
- github:https://github.com/ShineChen1024/MagicClothing/tree/main
- OOTDiffusion技术论文:https://arxiv.org/abs/2403.01779
- IP-Adapter-FaceID:https://huggingface.co/h94/IP-Adapter-FaceID
Magic Clothing的主要功能特点
- 控制性:用户可以通过文本提示来控制图像合成中的服装细节,从而生成定制的、穿着特定服装的人物图像。
- 高度可控:系统能够在生成过程中融合服装细节,实现高度可控和细粒度的图像输出。
- 多模态支持:支持IP-Adapter-FaceID,允许使用面部图像作为额外条件,提高图像合成的个性化和准确性。
- 模型更新:提供了不同分辨率的模型权重,如512和768分辨率,以及最新的1024分辨率版本,适用于VTON-HD和DressCode。
- 可视化工具:提供了Gradio工具,用户可以通过这些工具来探索和使用Magic Clothing的功能。
ComfyUI_MagicClothing体验
ComfyUI_MagicClothing是MagicClothing虚拟试衣的非官方实现ComfyUI插件,但也是一款强大的ComfyUI插件,支持功能如下:
- 通过提示生语成服装图像
- IPAdapter FaceID 配合人脸检测和服装图像合成
- IPAdapter FaceID 配合 controlnet openpose 和服装图像合成
- 支持上半身、下半身和全身模型
ComfyUI_MagicClothing插件安装
可以使用插件管理器搜索ComfyUI_MagicClothing安装,或者采用Git工具安装。
Git安装如下
在 ComfyUI 的 custom_nodes 目录下运行下列CLI命令
git clone https://github.com/frankchieng/ComfyUI_MagicClothing.git
pip install -r requirements.txt
模型下载
需要从Huggingface下载 cloth_segm.pth, magic_clothing_768_vitonhd_joint.safetensors(上半身模型), OMS_1024_VTHD+DressCode_200000.safetensors(下半身和全身模型)3个模型,并将它们放置在ComfyUI/custom_nodes/ComfyUI_MagicClothing/checkpoints 目录下。
同时,如果需要体验 ipadapterfaceid保持面部风格一致性迁移,那么还需要安装 ComfyUI_IPAdapter_plus 自定义节点。然后从IPAdapter FaceID 模型,并将它们放置在对应目录结构下。
另外,如果还想运行 controlnet openpose 部分,那么必须安装 comfyui_controlnet_aux 插件,以及下载 openpose 模型中的 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth,并将它们放置在 custom_nodes/comfyui_controlnet_aux/ckpts/lllyasviel/Annotators目录下。
还有部分模型会在运行时根据用户选项下载(如openpose模型 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth),因此需要能访问huggingface。
文件结构如下:
ComfyUI
|– models
| |– ipadapter
| | |– ip-adapter-faceid-plus_sd15.bin
| | |– ip-adapter-faceid-plusv2_sd15.bin
| | |– ip-adapter-faceid_sd15.bin
| |– loras
| | |– ip-adapter-faceid-plus_sd15_lora.safetensors
| | |– ip-adapter-faceid-plusv2_sd15_lora.safetensors
| | |– ip-adapter-faceid_sd15_lora.safetensors
|– custom_nodes
| |– ComfyUI_MagicClothing
| | |– checkpoints
| | | |– cloth_segm.pth
| | | |– magic_clothing_768_vitonhd_joint.safetensors
| | | |– OMS_1024_VTHD+DressCode_200000.safetensors
MagicClothing模型体验
01. simple workflow
02. IPAdapater FaceID workflow
03. IPAdapater FaceID chained with controlnet openpose workflow
04. full-body workflow with IPadapterFaceid
注:实践效果中对于人物面部特征保持相对弱,作者也提到很快会有人物细节更好改善版模型。目前内置模型为SD1.5模型,作者称将会尝试dreamshape8, xxmix9realistic_v40等SDXL模型。
附录
- github:https://github.com/ShineChen1024/MagicClothing/tree/main
- 插件:https://github.com/frankchieng/ComfyUI_MagicClothing/tree/main
数据统计
相关导航

Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动,从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说,Boximator可以通过文本精准控制生成视频中人物或物体的动作,能生成包含多个角色以及特定类型运动的复杂场景,并能精确生成物体和背景的细节。

甲骨文AI协同平台-殷契文渊
殷契文渊是一个甲骨文AI协同平台,它提供了丰富的甲骨文资料库,包括图片、释文、研究论文等。利用人工智能技术,帮助用户更高效地进行甲骨文的自动识别和解读。

Step-Video-T2V
Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。

商汤日日新开放平台
日日新开放平台

千影QianYing
千影 QianYing 是一款由巨人网络 AI Lab 推出的有声游戏生成大模型,包含游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。通过先进的人工智能技术,千影 QianYing 能够自动生成高质量、有声的游戏视频。YingGame 通过自定义角色、动作控制和物理模拟,创造互动性强的游戏内容;YingSound 则为视频添加高保真音效,实现精确的跨模态对齐和时间同步。

SDXL-Lightning
SDXL-Lightning是一款由字节跳动开发的开源免费的文生图开放模型,能根据文本快速生成相应的高分辨率图像。该模型能够在极短的时间内生成高质量和高分辨率的图像,是目前最快的文生图模型之一。

Loopy AI
Loopy是一个端到端音频驱动的视频生成模型,专注于生成逼真的头像动画。利用先进的 AI 技术和时间模块设计,Loopy 能够从音频中提取自然的运动模式,并生成高质量的动画效果。支持多种视觉和音频风格,适用于虚拟主播、动画制作等应用场景。

盘古大模型
盘古大模型 3.0 是一个面向行业的AI大模型系列,包含自然语言、视觉、多模态、预测、科学计算大模型等五个基础大模型,可以为用户提供知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力。
暂无评论...