MS
。
outline
所有课程的mp4都转到了学在浙大,阿里那边有线上分享。AIGC专题 · 研习社 (modelscope.cn)
中期作业:
基于可图Kolors模型的基础上生成不同风格的图片,要求生成8张图片并组成连贯的故事
Kolors-Lora风格故事挑战赛(8月31日,不强制要求,有奖金和展示平台)
` 期末作业:`通过风格图生成一段视频故事,包含多个镜头,进行配音
期中35+期末65
中期:完成阶段性作业,按时提交,提交一份中期报告(中期作业的技术报告,不用很长,两三页左右,同团队可以交一份模型,但是报告内需要写清楚分工) 期末:提交期末报告(明确分工),准备答辩PPT,演示视频,进行现场答辩(每个人都要到)
9.1提交中期作业和报告,9.8课程答辩
模型介绍
FLUX
,上个月刚开源,目前参数量最大的文生图模型(暂时不支持中文,BlackForest团队)
- 画面更逼真,DiT架构,开源模型生态发展中,有蒸馏过的加速版本
可图Kolors
,中文特色文生图模型(快手团队)
- 画面更美观,UNet架构,兼容部分SDXL模型生态,暂无加速版本
开源生态
Diffusion模型有极为丰富的开源生态
CivitAI(C站,需要梯子)是目前最为活跃的Diffusion开源社区,目前FLUX的LoRA野蛮快速发展
K.F.C魔改组是国内活跃的Diffusion开源社区(c指代一个文生视频的模型?
Diffusion-Studio
LoRA(Low-Rank Adaptation)
通过向模型中添加额外的低秩矩阵实现高效的微调$W\leftarrow W+\alpha AB$
期中作业:在可图Kolors模型的基础上训练LoRA模型,生成无限风格(如水墨画风格,水彩风格等)。基于LoRA模型生成8张图片,组成连贯的故事。
提供了基线方案代码供参赛选手使用(比赛官网),可以在这个基础上对数据集/代码进行修改 魔搭社区官网-我的notebook-启动GPU实例,选择预装镜像ubuntu22.04-cuda12.1.0-py310-torch2.3.0-tf2.16.1-1.16.1
推荐使用一个LoRA来控制风格,另一个LoRA控制角色。文案和提示词需要分别编写。