您当前的位置:首页 > 电脑百科 > 人工智能

CV不存在了?Meta发布“分割一切”AI 模型,CV或迎来GPT-3时刻

时间:2023-04-06 14:15:34  来源:网易号  作者:机器之心Pro

机器之心报道

机器之心编辑部

 

CV 研究者接下来的路要怎么走?

 


 

「这下 CV 是真不存在了。

如标题所述,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切」。


 

Meta 表示,这是第一个致力于图像分割的基础模型。自此,CV 也走上了「做一个统一某个(某些?全部?)任务的全能模型」的道路。


 

在此之前,分割作为计算机视觉的核心任务,已经得到广泛应用。但是,为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,此外,该项任务还需要大量的领域标注数据,种种因素限制了图像分割的进一步发展。

Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。


 

论文地址:
https://arxiv.org/abs/2304.02643

项目地址:
https://Github.com/facebookresearch/segment-anything

Demo 地址:
https://segment-anything.com/

除了模型,Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B),据称这是有史以来最大的分割数据集。该数据集可用于研究目的,并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

我们先来看看效果。如下面动图所示,SAM 能很好的自动分割图像中的所有内容:


 

SAM 还能根据提示词进行图像分割。例如输入 Cat 这个提示词,SAM 会在照片中的几只猫周围绘制框并实现分割:


 

SAM 还能用交互式点和框的方式进行提示:


 


 

此外,SAM 还能为不明确的提示生成多个有效掩码:


 

英伟达人工智能科学家 Jim Fan 表示:「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做的很好了。」


 

推特地址:
https://Twitter.com/DrJimFan/status/1643647849824161792

还有网友表示,NLP 领域的 Prompt 范式,已经开始延展到 CV 领域了,可以预想,今年这类范式在学术界将迎来一次爆发。


 

更是有网友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。


 

不过,也有人表示,该模型在生产环境下的测试并不理想。或许,这个老大难问题的解决仍需时日?


 

方法介绍

此前解决分割问题大致有两种方法。第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子)。这两种方法都没有提供通用的、全自动的分割方法。

SAM 很好的概括了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务。

总而言之,这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。

Meta 表示,他们受到语言模型中提示的启发,因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码,其中提示可以是前景、背景点、粗框或掩码、自由格式文本,或者说能指示图像中要分割内容的任何信息。而有效掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象(例如,衬衫上的一个点可能表示衬衫或穿着它的人),输出也应该是一个合理的掩码(就如上面动图「SAM 还能为为不明确的提示生成多个有效掩码」所示)。此任务用于预训练模型并通过提示解决一般的下游分割任务。

如下图所示,在引擎盖(hood)下,图像编码器为图像生成一次性嵌入,而轻量级编码器将提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后,SAM 可以在 50 毫秒内根据网络浏览器中的任何提示生成一个分割。


 

在 web 浏览器中,SAM 有效地映射图像特征和一组提示嵌入以产生分割掩码

1100 万张图片,1B+ 掩码

数据集是使用 SAM 收集的。标注者使用 SAM 交互地注释图像,之后新注释的数据又反过来更新 SAM,可谓是相互促进。

使用该方法,交互式地注释一个掩码只需大约 14 秒。与之前的大规模分割数据收集工作相比,Meta 的方法比 COCO 完全手动基于多边形的掩码注释快 6.5 倍,比之前最大的数据注释工作快 2 倍,这是因为有了 SAM 模型辅助的结果。

最终的数据集超过 11 亿个分割掩码,在大约 1100 万张经过许可和隐私保护图像上收集而来。SA-1B 的掩码比任何现有的分割数据集多 400 倍,并且经人工评估研究证实,这些掩码具有高质量和多样性,在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美 。


 


 

Segment Anything 对使用数据引擎收集的数百万张图像和掩码进行训练的结果,得到一个包含 10 亿个分割掩码的数据集,是以往任何分割数据集的 400 倍。

SA-1B 的图像来自跨不同地理区域和收入水平的多个国家或地区的照片提供者,在拥有更多图像的同时对所有地区的总体代表性也更好。Meta 分析了其模型在感知性别表现、感知肤色和年龄范围方面的潜在偏差,结果发现 SAM 在不同群体中的表现类似。

SA-1B 可以帮助其他研究人员训练图像分割的基础模型。Meta 也进一步希望这些数据能够成为带有附加注释的新数据集的基础,例如与每个 mask 相关的文本描述。

未来展望

通过研究和数据集共享,Meta 希望进一步加速对图像分割以及更通用图像与视频理解的研究。可提示的分割模型可以充当更大系统中的一个组件,执行分割任务。作为一种强大的工具,组合(Composition)允许以可扩展的方式使用单个模型,并有可能完成模型设计时未知的任务。

Meta 预计,与专门为一组固定任务训练的系统相比,基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。SAM 可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件。比如 SAM 可以通过 AR 眼镜识别日常物品,为用户提供提示。


 

SAM 还有可能在农业领域帮助农民或者协助生物学家进行研究。


 

未来在像素级别的图像理解与更高级别的视觉内容语义理解之间,我们将看到更紧密的耦合,进而解锁更强大的 AI 系统。

https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/

https://www.zhihu.com/question/593914819



Tags:CV   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
 来源 机器之心至此已成艺术的 Sora,是从哪条技术路线发展出来的?  最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经...【详细内容】
2024-02-21  Search: CV  点击:(52)  评论:(0)  加入收藏
OpenCV 常用的七个示例:从读取到人脸检测(Python版)
OpenCVOpenCV是计算机视觉领域最流行的库之一。它最初是用 C 和 C++ 编写的。现在也可以在 Python 中使用。它最初是由英特尔开发的。该库是一个跨平台的开源库。免费使用。...【详细内容】
2023-11-30  Search: CV  点击:(165)  评论:(0)  加入收藏
汽车变速箱:MT、AT、CVT、DCT哪个更好?全面比较给你答案!
MT(Manual Transmission)是手动变速箱,需要通过手动操作离合器和换挡杆来实现换挡,操作感更强,驾驶者可以更加精准地控制车辆的速度和动力。 它的优点是简单、可靠、耐用,并且提...【详细内容】
2023-11-14  Search: CV  点击:(19)  评论:(0)  加入收藏
CVT汽车的冷保护,到底在保护什么?
CVT(Continuously Variable Transmission)是一种先进的变速器技术,它使用无级变速的原理来实现平稳的驾驶和燃油效率的提升。然而,在寒冷的天气里,许多车主可能会面临一个问题:CVT...【详细内容】
2023-10-14  Search: CV  点击:(41)  评论:(0)  加入收藏
Java机器视觉:利用OpenCV进行图像处理和识别
Java是一种广泛应用于软件开发的编程语言,随着计算机视觉技术的普及和发展,Java也能够通过各种开源的计算机视觉库进行图像处理和识别,其中OpenCV是目前最流行的计算机视觉库之...【详细内容】
2023-10-12  Search: CV  点击:(350)  评论:(0)  加入收藏
探索Java中的OpenCV:图像操作的无限可能性
图像处理是一门多学科的领域,涉及数学、计算机科学和工程学等多个领域的知识。它可以应用于各种领域,包括医学影像处理、计算机视觉、图像识别和增强现实等。在这篇文章中,我们...【详细内容】
2023-09-28  Search: CV  点击:(357)  评论:(0)  加入收藏
再夺全球顶级竞赛CVPR NTIRE冠军,打造更好用户体验,淘宝拥有哪些内容技术?
机器之心报道编辑:蛋酱不知不觉间,内容电商似乎已经成为人们生活中不可或缺的存在:在闲暇时间,我们已经习惯于拿出手机,从电商平台的直播间随手下单自己心仪的商品。尽管优质的货...【详细内容】
2023-06-20  Search: CV  点击:(119)  评论:(0)  加入收藏
这个开车习惯,只会让CVT变速箱坏的更快!看完你就懂了
本期问题:没停稳就倒车,对CVT无极变速箱会有损伤吗?首先简单说一下CVT变速箱的工作原理。上图就是CVT变速箱的简易图,它应该是三种主流变速箱里面工作原理最简单的,主要部件就是...【详细内容】
2023-05-23  Search: CV  点击:(100)  评论:(0)  加入收藏
Django SQL注入漏洞 CVE-2022-28347
漏洞简介在Django 2.2 的 2.2.28 之前版本、3.2 的 3.2.13 之前版本和 4.0 的 4.0.4 之前版本中的 QuerySet.deexplain 中发现了SQL注入问题。这是通过传递一个精心编制的字...【详细内容】
2023-05-18  Search: CV  点击:(250)  评论:(0)  加入收藏
CV不存在了?Meta发布“分割一切”AI 模型,CV或迎来GPT-3时刻
机器之心报道机器之心编辑部 CV 研究者接下来的路要怎么走? 「这下 CV 是真不存在了。如标题所述,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切...【详细内容】
2023-04-06  Search: CV  点击:(219)  评论:(0)  加入收藏
▌简易百科推荐
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(7)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(3)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(3)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(6)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(3)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(5)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(6)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
站内最新
站内热门
站内头条