您当前的位置:首页 > 电脑百科 > 人工智能

不会PS没关系,AI拼图技术已能以假乱真|斯坦福研究

时间:2023-03-27 11:52:11  来源:量子位  作者:

Alex 发自 凹非寺

量子位 | 公众号 QbitAI

这是一份看似平平无奇的日式便当。

但你敢信,其实每一格食物都是P上去的,而且原图还是酱婶儿的:

直接抠图贴上去,效果一眼假

背后操作者并不是什么PS大佬,而是一只AI,名字很直白:拼图扩散 (Collage Diffusion)。

随便找几张小图拿给它,AI就能自己看懂图片内容,再把各元素 非常自然地拼成一张大图——完全不存在一眼假。

其效果惊艳了不少网友。

甚至还有PS爱好者直呼道:

这简直是个天赐之物……希望很快能在Automatic1111 ( Stable Diffusion用户常用的网络UI,也有集成在PS中的插件版)中看到它。

为什么效果这么自然?

实际上,此AI生成的“日式便当”还有好几个生成版本——都很自然有木有。

至于为啥还有多种版本?问就是因为用户还能自定义,在总体不变得太离谱的前提下,他们可以微调各种细节。

除了“日式便当”,它还有不少出色的作品。

比如,这是拿给AI的素材,P图痕迹明显:

这是AI拼好的图,反正我愣是没看出什么P图痕迹:

话说这两年,“文字生成图像的扩散模型”着实大火了一把,DALL·E 2和Imagen都是基于此开发出来的应用。这种扩散模型的优点,是生成图片多样化、质量较高。

不过, 文字终究对于目标图像,最多只能起到 模糊的规范作用,所以用户通常要花大量时间调整提示 (prompt),还得搭配上额外的控制组件,才可以取得不错的效果。

就拿前文展示的日式便当来说:

如果用户只输入“一个装有米饭、毛豆、生姜和寿司的便当盒”,那就既没描述哪种食物放到哪一格,也没有说明每种食物的外观。但如果非要讲清楚的话,用户恐怕得写一篇小作文了……

鉴于此,斯坦福团队决定从别的角度出发。

他们决定参考传统思路,通过 拼图来生成最终图像,并由此开发出了一种 新的扩散模型

有意思的是,说白了,这种模型也算是用经典技术“拼”出来的。

首先是分层:使用基于图层的图像编辑UI,将源图像分解成一个个RGBA图层 (R、G、B分别代表红、绿、蓝,A代表透明度),然后将这些图层排列在画布上,并把每个图层和文字提示配对。

通过分层,可以修改图像中的各种元素。

到目前为止,分层已经是计算机图形领域中一项成熟的技术,不过此前分层信息一般是作为单张图片输出结果使用的。

而在这种新型“拼图扩散模型”中,分层信息成了后续操作的输入。

除了分层, 还搭配了现有的基于扩散的图像协调技术,提升图像视觉质量。

总而言之,该算法不仅限制了对象的某些属性 (如视觉特征)的变化,同时允许属性 (方向、光照、透视、遮挡)发生改变。

——从而平衡了还原度和自然度之间的关系,生成“神似”且毫无违和感的图片。

操作过程也很easy,在交互编辑模式下,用户在几分钟内就能创作一幅拼贴画。

他们不仅可以自定义场景中的空间排列顺序 (就是把从别处扣出来的图放到适当的位置);还能调整生成图像的各个组件。用同样的源图,可以得出不同的效果。

最右列是这个AI的输出结果

而在非交互式模式下 (即用户不拼图,直接把一堆小图丢给AI),AI也能根据拿到的小图,自动拼出一张效果自然的大图。

研究团队

最后,来说说背后的研究团队,他们是斯坦福大学计算机科学系的一群师生。

论文一作,Vishnu Sarukkai现为斯坦福计算机科学系研究生,还是硕博连读的那种。

他的主要研究方向为:计算机图形学、计算机视觉和机器学习。

此外,论文的共同作者Linden Li,也是斯坦福计算机科学系研究生。

在校求学期间,他曾到英伟达实习4个月,与英伟达深度学习研究小组合作,参与训练了增加100M+参数的视觉转换器模型。

— 



Tags:AI   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
AI(人工智能)芯片紧缺之际,越来越多科技巨头选择自行研发。当地时间4月10日,社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】
2024-04-11  Search: AI  点击:(1)  评论:(0)  加入收藏
英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电
新华财经上海4月11日电 当地时间4月9日,英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称,相比英伟达的H100 GPU,Gaudi3 AI芯片的模型...【详细内容】
2024-04-11  Search: AI  点击:(2)  评论:(0)  加入收藏
AI“复活”亲人成生意,哪些红线待划定?
提供一张照片、一段10多秒的音频,即可让逝者在视频中“活”过来——AI“复活”亲人成生意,哪些红线待划定?本报记者 陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】
2024-04-11  Search: AI  点击:(2)  评论:(0)  加入收藏
全球十大独角兽发布:字节稳坐第一,SpaceX第二,OpenAI第三
鞭牛士报道,4月10日消息,根据胡润《2024 年全球独角兽指数》,TikTok 所有者字节跳动以 1.56 万亿元人民币(1.72 万亿港元)连续第三年成为全球最大的独角兽公司。SpaceX 以 1.28...【详细内容】
2024-04-10  Search: AI  点击:(0)  评论:(0)  加入收藏
科技巨头狂撒千亿美元 “买照片”,只为训练AI模型?
高质量的数据,越来越值钱。你能想象,那些被遗忘在网盘的陈年老图,有朝一日能价值千金?就在最近,路透社报道称,苹果公司正与图像托管网站Photobucket协商,希望得到这家公司近130亿张...【详细内容】
2024-04-10  Search: AI  点击:(0)  评论:(0)  加入收藏
数字水印国标将出,AI生成内容标识成新焦点
日前,全国网络安全标准化技术委员会就国家标准《信息安全技术数字水印技术实现指南》公开征求意见,这是数字水印技术方面的首份国家标准,旨在解决由于缺乏统一实施流程、服务接...【详细内容】
2024-04-10  Search: AI  点击:(2)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10  Search: AI  点击:(7)  评论:(0)  加入收藏
AI是万灵药?Meta要把大模型塞进AR眼镜里
寻找下一块“屏幕”,这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网,智能手机让移动互联网无处不在之后,这前后两次造富神话的出现,也让所有人都在期待下...【详细内容】
2024-04-09  Search: AI  点击:(6)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09  Search: AI  点击:(3)  评论:(0)  加入收藏
AI+数字人成为市场关注焦点,大屏AI数字人助力展厅设计创意升级
随着各行业产业的数字化转型加速,人工智能时代的到来,展馆展厅行业也步入数字时代,各式的展馆展厅设计在融合了全息投影、虚拟现实、数字沙盘、互动投影、互动桌面等多种技术后...【详细内容】
2024-04-09  Search: AI  点击:(4)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条