【Ai时刻】Ai生图原理,那些一眼心动的美女是如何骗你的?
作为一名自诩“赛博写手”的无名小编,在完成每天的工作之余,就是在各类Ai绘画社群与某鸟上冲浪,最近一段时间的“Meme时刻”(就是常说的高光时刻)明显已经过去了,与之伴随的Ai整体热度也开始下滑,没有3月初期那种一刷信息流就全是Ai内容的“拥挤感”。
百度的Ai搜索指数
谷歌的Ai关键词全球搜索指数(这越南有点东西啊)
其实这也是好事,任何独特新鲜技术的“诞生时刻”都是惹人关注的,但想要真正有所建树,还是需要时间的沉淀,哪怕是Ai技术的迭代是普通科技产品的指数级倍数。比如最近,谷歌的开发者大会上,剑指微软系(/Bing/)的模型发布,不仅拥有与GPT4相抗衡的语言能力,同时还打了一套Ai组合拳来维系谷歌科技龙头的地位。
图片源自互联网
模型有四个版本,按照大小从小到大分别是、、和。其中,轻量级的模型可以快速的在移动设备上运行,无需网络连接。在超过100种语言的语料库上进行训练,因此它在处理多语言任务上表现优异,能理解、生成和翻译更精细、多样化的文本。在一些基准评估中,部分成绩甚至超过了GPT-4。尽管的参数数量更少,但其性能却优于上一代PaLM模型。
谷歌bard对话模型进步比较明显,应该已经使用了模型
可见在短短的几个月中,由算法、算力组织起来的Ai智慧树已经从一棵小树苗长成一棵硕果累累的巨树,至于这棵树会不会成为未来人类科技的“智慧之母”,还是要等待与辩证地看待。
丨Ai绘画
回归到标题上,最近在C站发现了一个运行在上的新模型,名字叫做BRA(ians)V5直译为美丽逼真的亚洲人,点击查看其效果照片,非常惊艳,不少用户展示出的作品都能达到照片级别,于是我就下载尝试玩玩。
图片源自互联网
根据该模型的创作者介绍,该模型使用了大约3个月的训练失败以及训练合并的结果。该作者是一位在新加坡的华人,会说一点点中文与日文。
使用和该模型制作者交流一下使用心得
下面是我利用该模型配合一些特定的产出的效果图片,部分图片由于原生精度与分辨率不足,我利用推荐的放大软件进行了分辨率扩展,大家可以来看看这些Ai产出的图片是否很具有迷惑性。
丨
部分:8k,,,.2)ay
丨
丨
丨
丨
部分:,,,,,8k,
丨
丨
丨
部分:ter,,,,,
丨
丨
部分:,,,,,,
丨
丨
部分:,,,,,,,,,,8k
丨
丨
部分:,,,,50mm,F1.2,,,,
丨
丨
丨
部分:,,,,F1.2,,
丨
部分:,,,,,,
是不是感到很惊艳,不仅仅是屏幕前的大家,就算训练过千张Ai图片的我,当看到光线、五官、表情与神态与照片几乎无差别的Ai生图时也是激动得不行,要知道就在20天前我们在做《显卡Ai算力大比拼,想画Ai女友该怎么选?》时画出的Ai女友也就仅仅长成这样:
虽然也是非常美丽动人,但一眼就能觉得这是Ai出图,在脸部与皮肤的生成上,Ai非常倾向给出非常完美的“光线效果”,让皮肤的颜色、光感都处于绝佳状态,眼睛与嘴唇的细节处理也偏向于极致,眼妆与口红的色号也都是使用了“婚礼级别”,让图片中的女生虽然光彩动人,但是太过于“完美”,少了真实感。
但在中,在生成人像时,Ai模型甚至会刻意避开脸部的细节光线,让图像中的脸部处于阴暗面或者侧光面,同时在脸上加入了不少“瑕疵”,比如明显的血管纹、痘痘、雀斑等来增加人像的真实感。
图片中的女生甚至有抬头纹,肤色也相对更偏向真实,另外人脸的骨骼结构也更偏向真人
在该张中,女生的眼袋与雀斑也是比较明显,同时不会出现Ai经典的假笑
同样的,脸部会出现一些血管纹、印记等瑕疵来烘托真实感
脸部会有明显的高光与阴影区域,符合在真实光线与摄影环境中的出图
这样的照片也成功骗到了我的朋友们,虽然他们已经给我打上了“我发的女生99%都是Ai画的”标签,但依然这几组成功唬到了不少人。
看来,在可预见的未来,喜欢好看妹妹的男生们不仅要防过度美颜大法还要警惕Ai美女的以假乱真,这也从侧面反映了,当前的Ai生图技术的强大,那么目前流行的和的Ai绘图软件到底是怎么理解文字,然后生成这样的图片的呢?
丨
接下来就来为大家揭开Ai画图的奥秘,但其中会涉及大量的技术类名词,为了更方便大家的理解,我会用大量的比喻来代替。
教学时刻
使用过和的小伙伴都应该清楚,Ai绘图都一个从“模糊到清晰”的过程,不论是基于本地的还是基于线上高性能服务器的。
这模糊到清晰的过程就是当前Ai绘画的主流手段-(扩散模型),简单点说,Ai绘画会先把图片进行“降维”然后训练,这个降维的过程很像是大家平时使用的榨汁机,将一个苹果放在榨汁机里去打碎了,变成苹果泥,然后吃一口,记住苹果泥的味道,从而知道这个味道的果泥就是苹果。
丨Ai绘画
而Ai则是将图片进行“嚼碎”(加噪点)来变成一组组的马赛克图片,这样的用意是在有限的算力下尽可能地多学习几组图片,多生成几组图片。因为马赛克的数据值是精确图片的1/100甚至1/1000.
那现在知道了Ai是如何快速学习图片的,那如何生成呢?还是拿苹果泥举例,在我们吃过了许多的果泥,比如苹果的、西瓜的、哈密瓜的、香蕉的,我们即使蒙上眼睛,只需要通过一点点的果泥就能分辨这个水果,然后回答出来。
丨Ai绘画
Ai也是重复类似的过程,通过大量的图片加噪点得到的马赛克图片,Ai也总结出了这个马赛克是猫、那个马赛克是狗之类的规则(具体逻辑比较深,不做赘述)。那就可以通过马赛克来反向还原图像,这一步就叫做反向扩散。
那么,Ai是如何理解我们的语言,并根据我们的想法画出“我们想要的小姐姐”的呢?过程中需要将文本进行“分词器”然后进行“clip”再进行“嵌入”,就可以让机器学习、认识到了!谢谢大家!
好了,不闹了。这些拗口且复杂的概念应该留给更加专业的小伙伴去学习,我们只需要知道,Ai(不管是绘图的,还是GPT类型的)都是通过将文字“降维”的方式来理解并学习,有点像是上述提到的“苹果泥”概念,Ai会将用户输入的文本拆分为更小的单元(词或字符),然后将分词后的文本转换成数学向量,这样模型才能更好地理解和处理。
Ai理解就是将文本碎片化、数字化丨丨Ai绘画
然后就要用到转换器模型():这是一个能够处理序列数据(如文本)的深度学习模型。它通过捕捉文本中的依赖关系和上下文信息,为生成图像提供丰富的信息。类似于专业的语言学家来帮计算机处理文本的关系,比如用户输出“可爱的猫”,不至于出现“猫的爱可”这样的计算机识别错误。
转换器模型就是将成堆的拼图碎片转换成一张张完整的拼图丨丨Ai绘画
理解完文本,就到了画画的过程了,就要用到噪声画画这个概念,如同吃水果泥来辨别水果,噪声预测器():这一步利用转换器模型提供的信息,逐渐生成图像。通过迭代过程,噪声预测器会从粗糙的图像开始,逐步细化细节。这就是为啥我们看到的Ai画图都是从模糊到清晰的过程。也像是一个画家根据一段描述开始创作,先绘制大致轮廓,然后不断添加细节,直至完成一幅画作。
也可以理解为慢慢地去雕刻一块巨石丨丨Ai绘画
接下来,我利用给大家展示一个小姐姐的生成过程,
给Ai输入小姐姐的关键词()
输入一定的特定咒语,比如什么高级渲染,8K渲染,HDR渲染之类的,还有一定的反面词,比如不要奇怪的手部,不要畸形之类的。
开始绘图,得到结果
如果在这过程中,我们中断一下模型的进度就可以得到类似于带有噪点的图片
从绘图过程中,我们可以看到绘图一开始的过程中,Ai就是先生成一个比较模糊的人物形象,一个大致的轮廓,然后逐渐地去填充,在绘图进度46%的时候就可以初见人物的雏形,后续都是把人物的细节进行纠正修改。
丨
这就是可以以假乱真的小姐姐的诞生过程了,感兴趣的小伙伴可以尝试用SD来画自己喜欢的小姐姐形象,但是请注意的是,目前国内的部分内容平台已经开始针对Ai生图进行了扫描识别并下架部分涉嫌违规的内容。目前Ai领域的规则还是处于空白阶段,所以针对版权保护等行为还没有彻底上线。
丨
希望各位在利用Ai工具的同时也要敬畏技术带来的冲击,我很喜欢老黄在大会上提到的“我们处于Ai的时刻”,正如彻底颠覆了手机市场一般,我们也需要辩证地看待Ai将会带来的改变。
技术没有黑白之分,是一把达摩克利斯之剑。