MS

outline

所有课程的mp4都转到了学在浙大,阿里那边有线上分享。AIGC专题 · 研习社 (modelscope.cn)

中期作业:基于可图Kolors模型的基础上生成不同风格的图片,要求生成8张图片并组成连贯的故事 Kolors-Lora风格故事挑战赛(8月31日,不强制要求,有奖金和展示平台) ` 期末作业:`通过风格图生成一段视频故事,包含多个镜头,进行配音

期中35+期末65

中期:完成阶段性作业,按时提交,提交一份中期报告(中期作业的技术报告,不用很长,两三页左右,同团队可以交一份模型,但是报告内需要写清楚分工) 期末:提交期末报告(明确分工),准备答辩PPT,演示视频,进行现场答辩(每个人都要到)

9.1提交中期作业和报告,9.8课程答辩

模型介绍

FLUX,上个月刚开源,目前参数量最大的文生图模型(暂时不支持中文,BlackForest团队)

  • 画面更逼真,DiT架构,开源模型生态发展中,有蒸馏过的加速版本

可图Kolors,中文特色文生图模型(快手团队)

  • 画面更美观,UNet架构,兼容部分SDXL模型生态,暂无加速版本

开源生态

Diffusion模型有极为丰富的开源生态

CivitAI(C站,需要梯子)是目前最为活跃的Diffusion开源社区,目前FLUX的LoRA野蛮快速发展

K.F.C魔改组是国内活跃的Diffusion开源社区(c指代一个文生视频的模型?

Diffusion-Studio

LoRA(Low-Rank Adaptation)

通过向模型中添加额外的低秩矩阵实现高效的微调$W\leftarrow W+\alpha AB$

期中作业:在可图Kolors模型的基础上训练LoRA模型,生成无限风格(如水墨画风格,水彩风格等)。基于LoRA模型生成8张图片,组成连贯的故事。

提供了基线方案代码供参赛选手使用(比赛官网),可以在这个基础上对数据集/代码进行修改 魔搭社区官网-我的notebook-启动GPU实例,选择预装镜像ubuntu22.04-cuda12.1.0-py310-torch2.3.0-tf2.16.1-1.16.1

推荐使用一个LoRA来控制风格,另一个LoRA控制角色。文案和提示词需要分别编写。

results matching ""

    No results matching ""