From 478c11871455d4b35998bd5058ed698a7129d495 Mon Sep 17 00:00:00 2001 From: arvinxx Date: Sun, 30 Jul 2023 00:37:45 +0800 Subject: [PATCH] =?UTF-8?q?=E2=9C=85=20test:=20add=20test?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- api/parse.ts | 6 +- tests/api.test.ts | 12 - tests/html/zhihu.html | 8770 +++++++++++++++++++++++++++++++++++++++++ tests/parse.test.ts | 26 + 4 files changed, 8801 insertions(+), 13 deletions(-) delete mode 100644 tests/api.test.ts create mode 100644 tests/html/zhihu.html create mode 100644 tests/parse.test.ts diff --git a/api/parse.ts b/api/parse.ts index be4dbec..7315212 100644 --- a/api/parse.ts +++ b/api/parse.ts @@ -11,5 +11,9 @@ export default async function handler(req: VercelRequest, res: VercelResponse) { const content = NodeHtmlMarkdown.translate(article?.content || '', {}); - res.send({ ...article, content }); + const body = { ...article, content }; + + res.send(body); + + return body; } diff --git a/tests/api.test.ts b/tests/api.test.ts deleted file mode 100644 index 17dd93c..0000000 --- a/tests/api.test.ts +++ /dev/null @@ -1,12 +0,0 @@ -import Api from '../api/parse'; -import type { VercelRequest, VercelResponse } from '@vercel/node'; - -test.skip('Api', async () => { - const data = await Api( - ({}), - ({ - json: () => {}, - }), - ); - expect(data).toEqual('hello'); -}); diff --git a/tests/html/zhihu.html b/tests/html/zhihu.html new file mode 100644 index 0000000..6458c71 --- /dev/null +++ b/tests/html/zhihu.html @@ -0,0 +1,8770 @@ + + + + + GhostMix作者:关于StableDiffusion模型的发展方向和现有checkpoint模型乱象的思考 - 知乎 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+
+
+
+
+
+
+
+
+
+
+
+
+ + + + + + +
+
+ +
+ +
+
+
+
+ +
+
+
+
+
+
+
+
GhostMix作者:关于StableDiffusion模型的发展方向和现有checkpoint模型乱象的思考
+
+
+
+

+ GhostMix作者:关于StableDiffusion模型的发展方向和现有checkpoint模型乱象的思考

+ +
+
+
+
+
+
+

+ (省流版本:笔者认为由于LoRA和controlnet的加入,SDXL的参数量的扩大,SD模型ckpt的发展方向是往兼容性的大模型方向发展才是正确的道路,更好发挥现有8.59亿参数量(未来SDXL:35亿参数)的优势。而现在越来越多随意将LoRA和ckpt融合,越来越固定的画面风格,兼容性越来越差的模型,容易导致劣币驱逐良币,导致ckpt的发展方向偏移。) +

+

+ 大家好,我是StableDiffusion模型GhostMix的制作者_GhostInShell_。写这篇文章主要是我觉得现在有些国内StableDiffusion(为书写方便,后面简称为SD)社区的发展方向是错误的,且因为最近很多SD社区都在搞活动,所以很多的“模型创作者”一哄而上,制作垃圾模型来薅羊毛。《经济学原理》第一条:人会对激励做出反应,不可否认,钱是可以激励创作者做出更好的模型,但现实情况是很多人眼里面只有钱,为了钱制作各种垃圾模型。所以我觉得作为知名模型制作者,非常有必要去表达自己的观点,尽可能的纠正现在ckpt的发展方向,为真正推动SD社区发展做出贡献。(叠甲:下文纯属个人观点,每个人都有自己的理解,本文攻击性有点高,如果观点方面有不同意的地方,那你就当我是傻子,右上角叉掉就行了。没必要争论,Let + the Model Speak,谢谢。

+

+ 首先,我凭什么有资格去讨论其他Checkpoint(为书写方便,后面简称为ckpt)。GhostMix是我做的第一个ckpt,从4月11日第一个版本发布,在非真人模型,不做任何擦边色情内容的前提下,纯靠模型的画面质量和极高的兼容性,仅用了不到3个月的时间,在全球模型网站Civitai上做到了历史全模型最高评价榜(All + Time Highest Rated Rank)的第2名。GhostMixV2.0在一共评分次数400次,平均分为4.99分(满分为5分),虽然评分次数不能跟Deliberate,ReV等“远古大神”级模型相比,但是均分也是跟DreamShaper一样处于最高的一档。因为没有更新模型,作者我现在是基础模型作者榜(Base + Model + Creator)第十五名(最高时第三名),也是唯一一个只发了一个ckpt模型就进入前十名的制作者。综上,我觉得作为Civitai上顶级的ckpt制作者,我完全有资格去告诉所有人什么才是一个好的模型以及ckpt未来正确的发展方向在哪里。 +

+
+ +
+
Base Model Creator最高第三名
+
+
+ +
+
2023年7月8日 All Time Highest Rated 第二名
+
+

在具体说问题之前,我们先要对ckpt和LoRA有基础的了解。(本人为金融专业研究生,所有关于deep + learning的东西都是自学的,虽然参考了很多文章,但是依然非常不专业,如果错误的地方,欢迎提出来。)首先什么是ckpt?一个完整的ckpt包含Text + Encoder, Image Auto Encoder&Decoder和U-Net三个结构。其中U-Net是SD的主要架构,U-Net结构见下图,U-Net中有12个输入层,1个中间层和12个输出层。根据Github用户ThanatosShinji的测算,U-Net总参数量约为8.59亿(859M)。这里多说一句,由于进行U-Net之前图片需经过AutoEncoder转化成隐空间向量,所以U-Net具体对图片生成的影响本身就是一个黑盒,这也是为什么我不去相信网络上所谓ckpt的每层对图片影响总结的原因。因为连CNN都没能具体知道哪一层是影响什么东西的,何况带attention机制的U-Net?那些所谓的总结,都是基于个人经验的揣测。所以最好的办法依然是自己一层一层去试,然后一个模型一个模型做测试,也就是我之前改进ckpt那篇文章介绍的。 +

+
+
+ +
+
关于U-Net的详细架构介绍,原引自文章: https://zhuanlan.zhihu.com/p/582266032
+
+

然后什么是LoRA?LoRA是Low-Rank + Adaptation的缩写,Low-Rank是重点,即本质上LoRA是通过训练比原来模型小很多的低秩矩阵来达到学习特定画风和人物的目的。然后在推断(inference)过程中,将LoRA部分的权重与原权重相加,达到生成特定画风和人物的效果,即下图的右侧橙色的部分。LoRA的一大特点在于易于训练,如果训练原模型是训练维度是d*d的W矩阵,那么LoRA则是训练一个(d, + r)的矩阵A和(r,d)的矩阵B。因为r是远小于d的,所以训练LoRA参数量更少,文件的大小(128dim的LoRA147M)也比最小的ckpt(1.99G)小了10多倍。

+
+ +
+
引自论文《LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS》
+
+

+ 这里其实就引申出一个的问题,LoRA是特定的风格和人物信息的小模型,大小仅为147M。而作为有8.59亿参数,1.99G的ckpt,是不是应该有更多的内容?所以我认为ckpt的价值应该恰恰反应在大模型里面的“大”一字里面,即模型的兼容性。 +

+

+ 我个人认为模型的兼容性,主要分为两部分:1.Prompts的兼容性2.画风及LoRA兼容性。Prompts兼容性主要说的是指定Prompts的情况下,模型是否能正确遵循Prompts做出相对应的图片。这里我之前模型评价体系的文章中有我自己的测试方式,可以看我上一篇文章。同时也推荐Anything模型系列的作者Yuno779的《模型理论科普》一文介绍的微笑测试。

+
+
+

+ 然后重点说一下画风和LoRA兼容性。在SD发展早期Novelai时,因为LoRA还没有应用,都是ckpt直出,所以我们需要通过ckpt本身来确定画面的风格。但是随着LoRA的应用,ckpt本身其实已经不需要做这件事。原本ckpt是要一步解决做的对的问题,现在是ckpt+LoRA+controlnet一起完成,ckpt本身的定位也发生了变化。所以我经常强调的观点是:现在ckpt应该是解决做的到的问题,然后LoRA,controlnet等是解决做的对的问题。可能大家不理解什么意思,打个不恰当的比方,比如去画画,ckpt是画板,LoRA是画笔;去摄影,ckpt是相机,LoRA是胶卷,你画画带相机去是做不到的,同理摄影带画板也是不行的。而8.59亿参数带来的价值在于,优秀的ckpt既可以是画板也是相机,配合不同的LoRA就可以生成画或者照片。而且事实证明,这是SD1.5架构下是完全可以做得到的,你看Civitai上历史最高评价前十的非色情模型Deliberate,ReV,DreamShaper,GhostMix都属于这一类的模型。 +

+
+ +
+
GhostMix画风兼容性,ckpt直出,没有用任何LoRA
+
+

+ 而现在的ckpt的乱象表现在于,因为ckpt融合很简单,门槛比炼LoRA还低,很多“模型制作者”把ckpt和好看的LoRA瞎融合一下,画风被各种LoRA固定死,画风兼容性为0,CLIP偏移不管,Prompts兼容性差,出1,2张好图就上传模型网站薅羊毛,然后打上什么“首发”,“独家”的标签。这些看上去很美,一测明显过拟合的垃圾,名为ckpt实为LoRA的垃圾模型比比皆是。而且劣币驱逐良币,还有一帮被强行喂答辩的新人们觉得这些垃圾模型才是好模型,是多么的滑稽。不信的话,你们看看除C站之外,国内的模型网站ReV,DreamShaper这些比GhostMix还厉害的模型有多少人在用,排名在哪里了? +

+

+ 有人可能觉得,只要出图漂亮就没什么。首先你看看自己硬盘里面有多少个G的模型吧,我这里是随随便便都300G的checkpoint,SDXL之后可能2个T都不够装。然后SDXL + 7月份就马上就要发布了,据stability.ai的官方介绍,SDXL 0.9的base model参数量是35亿,ensemble + pipeline的参数量是66亿(3.5B和6.6B),3.5B是什么概念,要知道清华的LLM—ChatGLM也才6B。莫非到3.5B了还要将模型做成固定成风格,各种兼容性泛化性差的垃圾模型吗?所以我觉得这个问题是一定要正视的问题。现在顶尖模型创作者基本都不懂深度学习,连验证数据集和测试数据集的概念都没有,连我这个自学了点深度学习的垃圾都被认为是“专业的大佬”,是真的需要反省反省了。最近我一直试SDXL,我真的觉得如果SDXL社区发展方向对,是应该能出一个质量比肩Mid + Journey的真人,2.5D,动漫完全统一的大一统模型。但如果大家还在追求那一两张美图,把一堆LoRA融进模型,固定画风人脸,那我觉得何止SDXL做不出来,可能脸SDXXXXXL都不够用。所以在SDXL发布之前,一定要把这个问题提出来,忠言是逆耳的,如果提出来这个问题能够让所有模型开发者重视,我觉得就很高兴了。还是希望SD开源社区能够少点金钱的浮躁,多点沉下心来认认真真做模型,好好把模型给做好测好再发出来。其实GhostMixV2.0的改进版本也做了7,8个了,因为没一个更好的,所以就一直没发新的版本,流量排名不断往下掉,但是我觉得与其发垃圾的更新版本,还真不如不发。 +

+

+ 也不能光说问题,不给解决方法,所以关于如何解决模型兼容性的问题,我个人的建议是:1.能自己训练,最好自己训练,保持模型的“干净”。2.融合模型的话,融时少融一点LoRA,原ckpt模型都一堆LoRA了,还怎么有很好的LoRA的兼容性?如果担心现在模型中太多LoRA那么就用旧模型,我GhostMixV2.0全是用旧版本模型做的,很多模型为了更新,越搞越差……3.多测、多测、还是多测。做完模型之后,还要用不同的,画风各异的Prompts去测,既要简单的Prompts不乱加细节,也要复杂的Prompts正确表达细节。(详细的还是可以看我之前的文章) +

+

最后,真的感谢大家的支持,特别是整个开源社区的大佬们对我的支持。我的所有python和深度学习知识都是来自开源社区,没有Eric + Grimson,吴恩达,李沐老师的免费教学,我也不可能制作出GhostMix。还要特别感谢蘑菇街WeShop的吴海波大佬 +

和Tusi社区的支持和帮助,愿意在没有任何商业要求的情况下,提供给我更好的设备进行SD模型的制作,推动社区的发展,在此表达我最真诚的感谢,非常感谢。(本人以人格担保,本文没有任何利益关联,纯粹就事论事)因为他们的支持,我也能够力所能力的为SD社区做点微小的贡献。我将我原本使用的3060ti无偿送了一位正在用1060制作LoRA的优秀制作者:月月AI,希望他能够为社区做更多更好的作品。后续我也会将GhostMix模型获得的绝大多数收益用于奖励可以为SD社区解决现有模型缺陷的人。也欢迎所有真正希望推动StableDiffusion的社区找我合作,不求报酬,只为开源社区更健康的发展。 +

+
+

2023年7月6日更新:昨天刚发,今天SDXL就泄漏了,不就印证了我硬盘空间的问题吗,fp16版sd_xl_base_0.9 + 5.7GB,这只是主模型应该还没包括6.6B的pipeline...模型还没测,但听说comfyui可用..下载地址:pub-2fdef7a2969f43289c42ac5ae3412fd4.r2.dev

+
+
+
+
编辑于 2023-07-26 09:25 ・IP 属地广东
+
+
+ + +
+
AI
+
+
+
+
+
+ + +
+ +
+ + + +
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
写下你的评论... +
+
+
+
+
+
+

+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
106 条评论
+
+
+
+
默认
+
最新
+
+
+
+
+
+
+
+
十万个不为什么
+
+
+
+
+ +
+
+
“我真的觉得如果SDXL社区发展方向对,是应该能出一个质量比肩Mid + Journey的真人,2.5D,动漫完全统一的大一统模型。“这个才是模型最应该走的路线。[赞][赞]加油!! +
+
+
+
07-05 · IP 属地北京
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+
[拜托][拜托][拜托]
+
+
+
07-05 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
奇点
+
+
+
+
+
+ +
+
+
+
+
+
+
+ 说的很对,从我的训练模型的感受上来看,大模型确实应该包容万象,容纳更多更准确的提示词,同时要保证出图率,既包括图像逻辑也包括色彩组成;然后单个提示词的细分可以交给lora来进行,一些只会在某个提示词细分下才会出现的提示词交给lora来解决。
而且sd模型的潜力被发掘的严重不够,大家都想着炼新模型,但有一些效果是用大模型+cn足以解决的,这也导致越来越多的新模型出来,很多好的模型都被滥竽充数的模型掩埋了,很多人为了冲榜,完全不顾及模型质量的提升,导致现在的生态确实在往不好的方向发展,有的人甚至为了冲榜天天炼人脸炼了成千上万个人脸!或许sd社区需要一个半开放的平台,来尽量挖掘一下现有/未来模型的应用潜力,去做更多可以提升生产力的事,降低使用ai绘图的门槛,同时对大模型的出图效果进行审核,尽量遏制一下现在的趋势
我用了ghostmix2.0有了一段时间了,ghostmix在很多很多场景的效果都很好,不仅是画人,还有场景,艺术字,产品,海报设计等等方面,我觉得大模型就是要像anything和ghostmix这样在非常多的使用场景下都能出图才算合格,这样搭配细分领域的lora才可以达到ai应该有的效果 +
+
+
+
07-05 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+
+ 是的,大模型宜精不宜多,一个兼容广泛的比几十个垃圾都要好用。 +
+
+
+
07-06 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
黄仲浩
+
+
+
+
+
+ +
+
+
+
+
+
+
+ 很难,因为要真正炼好大模型,需要的是极大量的素材,和好几十块A100等级的专业显卡进行大规模训练。 +
+
+
+
07-17 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
德里克文
+
+
+
+
+
+ +
+
+
+
+
+
+
+ 说的很对,我有几十个大模型,但是实际经常用的也就那么几个,贵精而不在多,个性交给lora好了,大模型还是需要保证质量的前提下有更好的泛用性 +
+
+
+
07-09 · IP 属地福建
+
+
+ + +
+
+
+
+
+
+
+
+
陆沉
+
+
+
+
+
+ +
+
+
+
+
+
+

平台其实可以做引导,比如把 ckpt + 兼容性作为一个评价指标来更多影响排名和曝光,而不是单纯流量。

+
+
+
07-11 · IP 属地浙江
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+
+ 是的,但我觉得反而平台自己的评价体系才是真正独特的东西,通过评价体系来确保用户使用到高质量的模型,只会增加用户的粘性 +
+
+
+
07-11 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
陆沉
+
+
+
+
+
+ +
+
+
+
+
+
+

+ 不过现在各种平台自己也焦虑流量。在平台自己流量导向的情况很难做这种改变。

+
+
+
07-11 · IP 属地浙江
+
+
+ + +
+
+
+
+
+
+
+
+
+
黄仲浩
+
+
+
+
+
+ +
+
+
+
+
+
+
[思考]其实我觉得吧,开源社区大模型要炼好媲美mj
像c站这类的模型分享网站,比起分享“成品”模型。分享打标完的素材其实更好。
让有算力的用户收集优质素材去训练大模型。 +
+
+
+
07-17 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

+ 那会被版权搞死的....C站很多元老级模型都或多或少侵权训练素材的...

+
+
+
07-17 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
icbm
+
+
+
+
+
+ +
+
+
+
+
+
+
c站现在很多名字带mix的大模型,融个网红脸就拿出当宣传页了[飙泪笑]自己用起来局限性贼大,根本不好使。 +
+
+
+
07-06 · IP 属地浙江
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

+ 这就是兼容性差的代表,而且令我非常讨厌的一点在于,这些模型都没有年龄,全部是同一张脸。这个世界不应该“人造美女”,而是应该更多元,有美丑才叫真人模型。所以本来下个阶段就要征集这个要求的模型的。但XL来了,先看看

+
+
+
+
07-06 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
依云mm
+
+
+
+
+
+ +
+
+
+
+
+
+
赞同!做出一个质量比肩Mid + Journey的真人,2.5D,动漫完全统一的大一统模型。[赞同][赞同]加油加油! +
+
+
+
07-07 · IP 属地北京
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

[爱][爱]

+
+
+
07-07 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
已消户5862
+
+
+
+
+
+ +
+
+
+
+
+
+
这泄露速度太快啦
+
+
+
07-06 · IP 属地江苏
+
+
+ + +
+
+
+
+
+
+
+
+
Azure Snow
+
+
+
+
+
+ +
+
+
+
+
+
+
+ 很支持,然而大众审美就是这样的单一化,有的模型怎么出图都是同一张脸,导致现在会有那种一眼ai的情况,就这样了还有人拿这种图来说明ai绘图超越人类画师呢 +
+
+
+
07-11 · IP 属地上海
+
+
+ + +
+
+
+
+
+
+
+
+
AwsnTs
+
+
+
+
+
+ +
+
+
+
+
+
+

真的讲到心坎上了

+
+
+
07-24 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
夏天好热
+
+
+
+
+
+ +
+
+
+
+
+
+
+ 本人ghostmix模型重度用户。大部分人还不具备区分模型好坏的能力,比如我,而且测评模型成本还是有点高的,首先得懂怎么测。期待能有自发或较官方的模型测评组织出现 +
+
+
+
07-06 · IP 属地福建
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

感谢使用[红心],是的所以我也已经跟平台方建议要建立自己的评测体系,来去做引导,但毕竟这东西都在摸索,所以同样不容易 +

+
+
+
07-06 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
裴小浩
+
+
+
+
+
+ +
+
+
+
+
+
+
出发点没错,但是“顶级/优秀”这些词最好是别人评价,别自己给自己评价。 + 有事就说事,用逻辑说服人,而不是上来就秀履历 +
+
+
+
07-06 · IP 属地浙江
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

+ 好的,我以后注意。秀履历这事,现在人手一个自己的ckpt,我一共就不到2600粉丝,我不说清楚,谁会听我说啊,每个人都有自己的模型,又谁会听进去你说的呢....

+
+
+
+
07-06 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+ + + +
+ +
+
+
+
以和为贵,以和为贵,小事没必要[拜托][拜托]
+
+
+
07-07 · IP 属地广东
+
+
+ + +
+
+
+
+
+ +
+
+
+
+
跋扈
+
+
+
+
+
+ +
+
+
+
+
+
+

+ 如今在画面密度已经发展到很高的时候,构图的重要性开始显现出来,MJ在构图方面有着相当的品位,如果说MJ有什么开源社区绝对无法比拟的地方,构图一定是其中一项。

+


+

+ 开源社区的用户群因为多为技术爱好者,艺术品位稍为……欠缺一些,所以大多数用户还处在偏好高画面密度的阶段,会被精致的画面吸引,而还未到对于构图有足够重视的阶段。

+


+

+ 反映到模型上,除了声称注重构图甚至放弃了一部分画质的CF3以外,构图最好的模型可能是……初版NAI泄露模型,这体现了社区主流群体对构图的忽视,而这些方面恰好又需要传统的艺术工作者参与进来,更不巧他们普遍对这些技术缺乏好感。开源社区还有很多工作要做。

+
+
+
+
07-23 · IP 属地广西
+
+
+ + +
+
+
+
+
+
+
+
+
黄仲浩
+
+
+
+
+
+ +
+
+
+
+
+
+
我个人认为,模型融合才是模型不断劣化的根本原因。
特别是——在大模型中融合lora
因为大部分lora可以说一定程度上就是存在过拟合的。
而市面上大部分二次元lora都是以nai作为底模训练。
因此某些lora些微的过拟在一堆lora融合后就变成过拟到姥姥家。
Chillout只会出一种人脸就是过拟。
[捂脸]甚至作者你的ghost在画风上也是有点过拟的。 +
+
+
+
07-17 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
黄仲浩
+
+
+
+
+
+ +
+
+
+
+ + + + +
+
+
[调皮]其实不练text encoder的非过拟基础大模型互融的确没太大问题。
融模型最大的问题还是——基础大模型太少——融合素材太少。
为了出图表现力。很多人就开始融lora。
[捂脸]那种不打提示词就能效果的lora们,不就是过拟的吗?
[doge]然后大模型融合就这样被玩坏了。 +
+
+
+
07-17 · IP 属地上海
+
+
+ + +
+
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+ + + +
+ +
+
+
+

+ 是的,最典型例子就是很多新手喜欢玩的1girl抽卡,然后用1girl就出背景非常华丽的图,这就是融了很多lora导致的,现在很多人对模型的兼容性和泛化性本身根本没有概念,这也是我写这篇文章的目的

+
+
+
+
07-17 · IP 属地广东
+
+
+ + +
+
+
+
+
+ +
+
+
+
+
秀秀
+
+
+
+
+
+ +
+
+
+
+
+
+
+ 甚至一些是为了赚钱啥也不懂只会卖噱头然后开班赚钱的人也不少,就是因为秋叶整合了之后门槛太太太低了,就有点和剧本杀主持人一个性质,基本上可以算的上无门槛,我那天还看见一个人在那说青龙讲的东西dog屁不是[大笑]
+
+
+
07-10 · IP 属地四川
+
+
+ + +
+
+
+
+
+
+
+
+
木风
+
+
+
+
+
+ +
+
+
+
+
+
+
大半夜刷到的,先收藏回头看
+
+
+
07-09 · IP 属地上海
+
+
+ + +
+
+
+
+
+
+
+
+
抽象型的批判
+
+
+
+
+
+ +
+
+
+
+
+
+
月月ai怎么联系,我有意帮助一下。
现有4090显卡,1000多万张原画图片,14t固态PCIe4.0固态硬盘,64gddr5内存,可免费供其训练,远程电脑即可。
现在这个台式机一直闲置,我使用的主要是笔记本,工作主要在笔记本上进行[捂脸],2万块钱配了台式机,已经闲置了一个月了。 +
+
+
+
07-10 · IP 属地浙江
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

小红书联系他吧,我也是小红书联系上的

+
+
+
07-10 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
Potoo
+
+
+
+
+
+ +
+
+
+
+
+
+
[思考]原以为ghost是歪果仁。。。 +
+
+
+
07-08 · IP 属地北京
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

[捂嘴][捂嘴]

+
+
+
07-08 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
XZiar
+
+
+
+
+
+ +
+
+
+
+
+
+

想要泛化的话训练成本太高了,很难有好的数据集。我甚至怀疑LAION这类数据集本身的质量,拿CLIP + Interrogator反推,不管是相似率还是实际结果都很感人……可能真的只有像midjourney那样靠海量用户的自发反馈?

+

+ 其实如果lora去做特定概念,然后做融合是很不错的,小范围的概念普通人还是有可能去训练的,但现在的lora也并不能很好地锁定特定概念……

+
+
+
+
07-09 · IP 属地美国
+
+
+ + +
+
+
+
+
+
+
+
黄仲浩
+
+
+
+
+
+ +
+
+
+
+ + + + +
+
+
Mix模型只要不炼te只炼ue,训练时会加入合理正则降低过拟。
融合其实的确是不错的方式。
类似于画风之类,从nai的表现来看,也是可以利用提示词带出来的。
依托于底模而非提示词的画风都是过拟。 +
+
+
+
07-17 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

+ 所以个人觉得mix是非常好的方式去提高泛化性,C站前面的模型除了dreamshaper都是mix模型.最近在看评价体系的东西,看了一下LAION,从给出的样本数据看上去还是可以的.CLIP + Interrogator反推的话,确实打tag现在都做的挺差的....还是要自己来靠谱.LoRA锁定人物和画风其实效果还挺好的啊,我自己也做过卡莲的LoRA,还是可以解决问题的.

+
+
+
+
07-09 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
书雷智体
+
+
+
+
+
+ +
+
+
+
+
+
+

+ 我画出来的人像图,好多都是两三个头一个身子,这是什么原因,博主

+
+
+
07-08 · IP 属地日本
+
+
+ + +
+
+
+
+
+
+
+
GhostInShell
+
+
+
+
+
+ +
+
+ 作者
+
+
+
+

+ 分辨率不要太高,最高是768,因为大部分训练集都是这个分辨率的,所以效果好,要高分辨率,高清修复2倍,或者tile + diffusion配上controlnet tile模块

+
+
+
07-08 · IP 属地广东
+
+
+ + +
+
+
+
+
+
+
+
+
+
+
点击查看全部评论
+ + + +
+
+
+
+
+
+
+
+
+
+
+
+
+
写下你的评论... +
+
+
+
+
+
+

+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+ +
+
+
+
+
+ + + + + + + + + + + + + + + + + + +
+
想来知乎工作?请发送邮件到 jobs@zhihu.com
+
+ +
+
+
+
+
+ +
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+ + + diff --git a/tests/parse.test.ts b/tests/parse.test.ts new file mode 100644 index 0000000..cf43596 --- /dev/null +++ b/tests/parse.test.ts @@ -0,0 +1,26 @@ +import { VercelRequest, VercelResponse } from '@vercel/node'; +import { readFileSync } from 'node:fs'; +import * as path from 'node:path'; + +import { expect } from 'vitest'; +import Api from '../api/parse'; + +describe('html-to-markdown', () => { + it('Zhihu', async () => { + const html = readFileSync(path.join(__dirname, './html/zhihu.html'), { encoding: 'utf8' }); + + const data = await Api( + ({ + body: { + html, + url: 'https://zhuanlan.zhihu.com/p/641434725', + }, + }), + ({ + send: () => {}, + }), + ); + + expect(data).toMatchSnapshot(); + }); +});