自聊天机器人(rén)ChatGPT火爆以来,微软公司创(chuàng)始人比(bǐ)尔·盖茨已多次公开(kāi)谈论(lùn)人(rén)工智能话题。在最近(jìn)的一次采访(fǎng)中(zhōng),他再次(cì)表示:“AI可(kě)能会让科技行业迎来一次剧烈(liè)的洗牌”。
这个结论是他在当地时间2月20日(rì)接受《In Good Company》节(jié)目专访时提出的。
他预期,AI的发(fā)展可能会威胁到谷歌的(de)市占率,因为微软(ruǎn)在AI方面(miàn)的(de)行动相当迅速。而最终科技巨头(tóu)将(jiāng)把AI整合成用户的“全(quán)能助手”,包揽一切(qiè)应用,与人们(men)进(jìn)行沟通(tōng)并提供建议,可(kě)以(yǐ)取代亚马逊(xùn)、Siri或Outlook等应用(yòng)。
大佬(lǎo)口中(zhōng)全能助手(shǒu)的到来可能尚需时日,但由ControlNet引发的又(yòu)一次AI绘画浪潮,让AIGC在(zài)ChatGPT的话题(tí)热点包围中杀出重(zhòng)围。
01
ControlNet颠覆AI绘画新(xīn)玩法
AIGC向可控靠(kào)近
以(yǐ)AI绘画为代表的AIGC上一次爆(bào)火的时(shí)候,还是(shì)2022年8月,在美国科(kē)罗拉多州举办的新兴(xīng)数字艺术家竞赛中,一幅(fú)名为《太空歌剧院》的作品获奖。
随(suí)后各大厂(chǎng)商(shāng)的AI绘画软件被(bèi)广(guǎng)大(dà)网友熟知(zhī)并体(tǐ)验,Stable Diffusion便是其(qí)中(zhōng)代表(biǎo)。
用(yòng)户们(men)可以在应用(yòng)中输(shū)入一组关键(jiàn)词或者一(yī)张照片,就能(néng)获(huò)得一幅AI创作的画作。
作画的关(guān)键就(jiù)是所输入的文本(běn)。同一组(zǔ)关(guān)键词也可以创(chuàng)作(zuò)出很(hěn)多(duō)张风格不一样(yàng)的画作,这让创(chuàng)作的过程就(jiù)像开(kāi)盲盒。
很多用户很喜(xǐ)欢这种不确定的惊(jīng)喜,他们会将生(shēng)成的美(měi)图(tú)当做(zuò)头像(xiàng)。而(ér)另一部(bù)分喜(xǐ)欢翻看AI绘画的“翻车”作品。在社交媒体上,许多用户分享AI“翻车现(xiàn)场”,例如(rú),一位网(wǎng)友的小狗照片被AI画成了“肌(jī)肉男”,还有网友的个人照片被AI识(shí)别成了建筑。
而如今随着ControlNet的出现与加持,以往AI绘画的填写(xiě)关键词游戏可能要(yào)被颠覆了。
卅是什么意思,卅是什么意思,读音mg alt="ChatGPT之后(hòu)又一应用(yòng)杀疯(fēng)了(le),AIGC或进入可控期,将(jiāng)洗牌科(kē)技行业(yè)?_黑(hēi)料正能量" decoding="async" src="https://mmbiz.heiliaofuli.com/wp-content/uploads/2023/03/19d7ab2c0056bd4.jpeg?imageMogr2/thumbnail/2160x0/format/webp/quality/80" data-ratio="1.12109375" data-s="300,640" data-type="jpeg" data-w="1024">
ControlNet是一位正(zhèng)在(zài)斯坦福读博的中国人张吕敏创作(zuò)的(de)一(yī)种基于(yú)控制(zhì)点的图像变(biàn)形算法(fǎ),主要用于数(shù)字图像处理、计算机视觉和计(jì)算机图形学等领域。
其SD插件一经(jīng)发布,在(zài)短短的两天内便成(chéng)为(wèi)了AI绘(huì)画领域最新的热点(diǎn)。
在(zài)此之前,大家用了很多(duō)方法想让(ràng)AI生成的结果尽(jǐn)可能(néng)的符(fú)合要求(qiú),但是都不尽如人意,它的(de)出(chū)现(xiàn)代表着(zhe)AI生成(chéng)开始进入真正的可(kě)控时期。
因为(wèi)ControlNet可以直接提取画面(miàn)的构(gòu)图(tú),人物的姿势(shì)和画面的深度信息(xī)等。有了它(tā)的帮助,就(jiù)不用频(pín)繁(fán)的用(yòng)提示词来碰运(yùn)气,抽(chōu)盲(máng)盒式的(de)创作了。
通俗的说ControlNet相(xiāng)当于(yú)给(gěi)AI绘画加了“魔法”,不少(shǎo)博主(zhǔ)的作品已经获得了大量的浏览量,“viggo”就是其中之(zhī)一,他用朋友的照片直接带她们走进动漫(màn)世界。
viggo先用StableDiffusion图(tú)片转文字。
再用(yòng)Text2Prompt插件拓展找到对应的(de)关键词(cí);最后用(yòng)ControlNet插件绑定(dìng)骨(gǔ)骼开始(shǐ)换关键词试效果。
通过图(tú)片就可以看出来,效果(guǒ)十(shí)分(fēn)惊艳。
更(gèng)厉害的(de)是,除了真实(shí)的照片,草图也可以(yǐ)加上“魔(mó)法(fǎ)”,知(zhī)乎大(dà)牛(niú)“DevPoint”和“逗(dòu)砂(shā)”介(jiè)绍到(dào)ControlNet还能实现(xiàn)线稿(gǎo)转全彩图。大神张吕敏其(qí)本(běn)尊也亲自(zì)回(huí)应。
不得不(bù)说当下AIGC已经(jīng)变得越来越(yuè)强(qiáng)大(dà),甚(shèn)至输出的作品(pǐn)都已经能以假乱真了。
02
难辨虚实,AIGC技术(shù)力爆发
警(jǐng)惕(tì)安全问题
近日,“苏州(zhōu)金(jīn)鸡湖有游艇party”的消息火遍网络,而经过(guò)警方(fāng)辟(pì)谣这(zhè)所(suǒ)谓的“party”可能是全国第一起AI绘图(tú)诈骗。
由于这个活动里面给(gěi)出(chū)的美(měi)女(nǚ)照片都是AI制作的真人(rén)照片绘图,因为太(tài)逼真,被大家当成真事(shì)传(chuán)播了(卅是什么意思,卅是什么意思,读音le)。
不过仔细(xì)观(guān)察可(kě)以发现(xiàn),活动发起者提供(gōng)的(de)照片中有个很大的漏洞可以发现并非真人(rén),而是(shì)AI绘图,那便是图片(piàn)中女(nǚ)性的(de)手指部分有的(de)存在异(yì)常。
有行业(yè)人(rén)事表示:“现在因(yīn)为手指部分的绘画(huà)算(suàn)法比较复杂(zá),AI还(hái)不(bù)太会画人的手(shǒu),但最新(xīn)看到(dào)的图片已经有(yǒu)越来越完美的AI模型出现,以后可能就完全没有漏洞了。”
类似的AI作(zuò)图诈骗(piàn)在国外也已有(yǒu)发生。据英(yīng)国广播(bō)公司(sī)报道(dào),土(tǔ)耳其地震期间,有(yǒu)Tiktok用(yòng)户(hù)使用AI合(hé)成(chéng)了儿童(tóng)受(shòu)灾的(de)假照片(piàn)发布(bù)到网络(luò),以(yǐ)此诱(yòu)骗(piàn)善良的人打赏“捐助”从而(ér)实施(shī)诈(zhà)骗。
目前随着技术发展,AIGC已(yǐ)经能做(zuò)出真人照片般的绘图效(xiào)果,如果这样的图片被用来诈(zhà)骗(piàn),将(jiāng)非常可怕。
此外AIGC还引发了(le)很(hěn)多担(dān)忧,一方面,批判(pàn)者认(rèn)为AI在“学(xué)习”了(le)大量前人的作品之后,其创作没有任(rèn)何情绪和灵(líng)魂,难以和人类(lèi)的艺术(shù)创作相提(tí)并论(lùn)。
另一(yī)方(fāng)面,AIGC背(bèi)后(hòu)的版权(quán)、目(mù)前都并没有得到有效的解决,还有AIGC会不会代替人类“至高无上”的(de)创意。
马斯(sī)克也强调,人工(gōng)智能的(de)安全问题需要得到(dào)重视,太晚就来(lái)不及了。
03
AIGC下(xià)一站(zhàn)除了视(shì)频,还(hái)有远方
技术(shù)都是有两面性的,潜在的(de)危害并不(bù)能掩盖其光辉的贡献。现在看来,人工智能(néng)技术将是第四(sì)次工业革命(mìng)的(de)核心驱动力量(liàng),将创(chuàng)造新的增长奇迹。
过(guò)去一年(nián),人(rén)工智能在技术和商业(yè)层面都(dōu)有(yǒu)了巨大(dà)进展,AI绘(huì)画就是(shì)人工智能技术发生方向性改变的(de)一(yī)个代(dài)表(biǎo)。其下(xià)一站或许就是视频。
此前,Meta和谷歌先后发(fā)布(bù)了(le)几条引爆科技圈的短视频。这些视(shì)频引发关注(zhù)并非内容做得多优秀,反而都(dōu)卅是什么意思,卅是什么意思,读音非常(cháng)简单,比如一匹正在喝水的马,一只画画的玩具熊,或者一段骑(qí)摩托车的(de)第一(yī)视角(jiǎo)录像,随便(biàn)一个有手机的(de)人都可以随手(shǒu)录下一段。
但这些(xiē)短视频的创作方式(shì)非常简单,创(chuàng)作者(zhě)仅(jǐn)仅需要向AI输入一段话,甚至只是说(shuō)一下(xià)要(yào)求,AI就可以根据需(xū)要生成一段视频。
谷歌发(fā)布的两个AI生成视频分别(bié)来自于Imagen Video和Phenaki,前者(zhě)主要(yào)突出的是高清,与Meta的Make-A-Video没(méi)有太多的(de)差(chà)别。
在Make-A-Video公布了AI生(shēng)成的视频后,AI圈(quān)就已经玩了一波梗,一(yī)个能(néng)够(gòu)做出更高清视(shì)频(pín)的(de)AI还(hái)不(bù)足以在短时间内戳中兴(xīng)奋点(diǎn)。
Phenaki更加令人震惊的地方(fāng)在于,它可以制作出超过2分钟(zhōng)的连贯的(de)也有确切内(nèi)容(róng)的视(shì)频,这才是真正让人们(men)感到惊喜的地方(fāng)。因为无论(lùn)AI生成的视频多么高(gāo)清(qīng),也只(zhǐ)能是为内容生产(chǎn)者提供一(yī)个灵感(gǎn),一个素材,一个过场动(dòng)画。
不过能够制作出有(yǒu)具体剧情内(nèi)容的视频就意(yì)味着,一些视频创(chuàng)作由AI代(dài)替人工完成已经(jīng)初步有了可能。
当(dāng)下AI的发展速度已经超过(guò)大部(bù)分人的想象(xiàng)。内容(róng)产业的本质是(shì)供给(gěi)创造需求,AIGC作为(wèi)全(quán)新的内容生产方式,可(kě)以为(wèi)内容产业带来更(gèng)新的内容风格、更快(kuài)的生产速(sù)度(dù),更低的生产成本(běn),这(zhè)无疑会驱动内容产业的(de)大爆发。
除了AI绘图(tú)、视频,AIGC技术还能应用(yòng)于音乐、代码、机器人动作等多种内(nèi)容形式(shì)的生成。不(bù)难发(fā)现该(gāi)项技术不仅在游戏等行业能得到有效应用,对(duì)于(yú)下(xià)一代互联(lián)网各种元素的构建亦有(yǒu)关键意义。
从商业化的角度来看(kàn),文化娱乐、教育、传媒(méi)等诸多领域,本(běn)身(shēn)就对(duì)基于(yú)AI的可视化内容有(yǒu)强烈需求。
因此(cǐ),AI绘(huì)画及视(shì)频(pín)或不是结果,而只(zhǐ)是AI进程中的一块(kuài)重要拼图,有望在技术更(gèng)新的加持下实现更大的应用价值。
AI从理解内容,走(zǒu)向了可以生成(chéng)内容,甚至能(néng)够创(chuàng)造出独立价值和(hé)独立(lì)视(shì)角的内(nèi)容。AIGC的再次出圈,更代表着未(wèi)来的先进(jìn)生产(chǎn)力即将到来。
04
紧抓大模型与算力,牢固AIGC底(dǐ)座
从技术(shù)的发展也(yě)可以看出,在语言大模型、图像大模型之后(hòu),多模(mó)态大模型已经成为了新的趋势。
大模型被誉为(wèi)当前人工智能发展的(de)智(zhì)能(néng)底(dǐ)座,是全球(qiú)竞争(zhēng)最激烈的研究(jiū)方向之一,包括谷歌、亚马逊、百度、阿里、腾(téng)讯等众(zhòng)多(duō)头(tóu)部(bù)企(qǐ)业都在竞相发力。
不过训练大模型(xíng)的确价(jià)格不菲(fēi),以国盛证券发(fā)布的《ChatGPT需要多少算(suàn)力》报告估算(suàn),GPT-3训练(liàn)一次的成本约(yuē)为140万美(měi)元(yuán)。而对于一些更(gèng)大的LLM(大型语言(yán)模型),训练(liàn)成本(běn)则(zé)介于200万(wàn)美元至1200万美元高(gāo)价之间。
以(yǐ)ChatGPT在2023年1月的独立访(fǎng)客平均数1300万(wàn)计算,其对(duì)应芯(xīn)片需求(qiú)为3万(wàn)多片英(yīng)伟达A100 GPU,初始投入成本约为8亿美元,每日仅电费就(jiù)在(zài)5万美元左右。
此外不论是ChatGPT还是AIGC,都(dōu)离不开(kāi)庞大(dà)算力支持。在关注各类(lèi)大模型(xíng)的(de)发展同(tóng)时,更应该关(guān)注算力网络的建设(shè)。
算力网络正驱动AI产(chǎn)业发展进入史诗级加速进程,让AIGC及通用AI这一人工智能发(fā)展的(de)终极目标离得更近。
因为(wèi)算力可以对突破性技术(shù)创(chuàng)新提(tí)供大力的支持。这(zhè)方(fāng)面,多模态大(dà)模型是典(diǎn)型。作为面向(xiàng)未来强人工(gōng)智能(néng)、通用人(rén)工智(zhì)能的(de)重要技术创新(xīn),多(duō)模(mó)态大模型已经在人(rén)工智(zhì)能领(lǐng)域(yù)提出了很(hěn)多年(nián),业界(jiè)也有不(bù)少技术突破,但是,多模态大模型(xíng)进一步往下走,算力需求(qiú)呈(chéng)几何式上升,一般(bān)的算力基础设(shè)施很快将难以胜(shèng)任(rèn)。
从图(tú)像、文字、语音(yīn)单(dān)独(dú)一项的训练,到双模(mó)态、三模态(tài)的跃迁,让人工智能可(kě)以灵活应对不同模态的转化(huà)、像人(rén)与世界(jiè)交互一(yī)样自然,这方面,由算力网络来驱动将有明显(xiǎn)优势。
此外,还有很(hěn)多需要爆发式(shì)增长的算力来支撑的技(jì)术创新,将在人工智(zhì)能算力网(wǎng)络支撑下快速推进(jìn)。
AIGC已经露出曙光,期待在(zài)大模型(xíng)和大算(suàn)力(lì)的(de)支持下(xià)AIGC能(néng)持续(xù)颠覆内容生产的方式,将(jiāng)创(chuàng)造的边际成(chéng)本降低,让(ràng)万众受(shòu)益。
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了