bbox是什么意思(这里)
admin
2023-09-25 06:04:10
0

阿里美指南:视觉想象力是与生俱来的。AI能有类似的能力吗?例如,给定一个故事,机器如何扩展它的想象力和& quot大脑& quot照片?看看阿里AILabs感知实验室的同学们是如何解决这个问题的。

1.背景——视觉想象力(VisualImagination)

1.1什么是视觉想象力?

视觉想象是人脑的一个重要功能,可以把一些抽象的概念形象化,然后用这些视觉想象去思考。如图1最左栏所示,当我们想到Ayello BirdwithBrownandWhitewing sandapidedbill时,我们脑海中可能会想象出一幅黄色小鸟的画面。这就是视觉想象。我们的目标是让AI逐渐具备这种能力。

图1:第一行中的文本描述的图片[1]和& quot想象中的& quot由艾。

1.2AI拥有视觉想象力后的影响?

如果AI有视觉想象力,会更好的理解人的需求,对一些传统行业产生颠覆性的影响。这里有两个例子。

图2是语义图像搜索领域的一个案例。我们在google中搜索持有fishhandweartonwhitecoat的人,我们可能返回的结果质量是(a)。引擎只是偶尔理解我们的搜索意图。当机器具有一定的视觉想象力时,它的搜索结果可能是(b),这将大大提高我们的信息检索效率,而这些信息是承载在图像中的。

图2:具有视觉想象力的AI将对语义图像搜索产生重要影响[2]。

另一个例子是在语义图像生成领域。想象一下:当我们用语言描述一个场景时,机器利用其庞大的经验数据自动生成这个场景。如图3所示,如果我们描述一个具有不同外貌特征的人,机器会自动想象这个人的外貌,这将颠覆刑侦等领域(比如受害者描述罪犯的外貌)。

图3:具有视觉想象力的AI将对语义图像生成产生重要影响[3]。

2.选题——站在巨人的肩膀上

2.1领域的痛点在哪?

我们将注意力转移到文本到图像的合成领域。在这一领域,基于GAN思想的一系列算法,对于简单单个主体的图像生成,如鸟、花、人脸等,已经取得了一些可喜的成果,如图1所示。但当文字包含多个相互关联的对象时,产生的效果会大打折扣,如下左图所示。这主要是因为文本过于灵活和无结构造成的。

图4:目前的生成算法很难生成具有多重交互的对象,比如左边的StackGan算法。右边的Sg2im算法有可能在一定程度上解决这个问题[5]。

因此,斯坦福大学CV组的Johnson等人在CVPR2018中提出了将文本到图像的生成拆分成几个更可控的子问题的思想[5]。这使用了他们在CVPR2015中提出的一种新的场景表达方式,即——场景图和语义布局[2]。

图5:场景图和语义构成示意图[6]。

场景图是一个有向图,包含实体、属性和关系三个元素,可以看作是语义模式下的结构化表达。

场景图中的每个实体在图像中都有相应的bbox。如果只看画面中的所有bbox而不看图像本身,就会形成一个图像的语义构成,所以语义构成可以看作是图像的一种具有普遍意义的结构表达。

表1:结构名称和模式对照表。

2.2如何解决?——我们眼中的大框架

站在大牛的肩膀上,我们眼中从文字到图像的生成大致分为以下子任务:

表2:从文本生成的图像任务中分离出来的子任务列表。

为了达到信息的可控生成和维度逐渐增加的目的,整个过程可以大致分为上述子任务。每个子任务都有一些相应的工作,这里就不详细进行了。

2.3论文的关注点

本文重点解决子任务3:如何从场景图生成场景构图?

这个任务很重要,因为从这个任务中,结构化语义状态的信息可以是& quot想象中的& quot作为图像的结构化表达,这是赋予机器视觉想象力的关键。

3.论文的动机及贡献

3.1当前的问题

3.1.1最接近的工作和组合爆炸问题

图6: SG2IM使用图卷积网络,以整个场景图为输入生成语义合成整体[5]。

最接近的工作来自StanfordJohnson等人在CVPR2018 [5]中发表的sg2im算法(图6)。他们首先使用一个图卷积网络来嵌入每个实体的特征,然后使用这些特征通过objectlayout网络生成语义组合。他们采用的生成方式是从整个场景图到整个语义构成。整个场景图会包含几个实体和关系,这些实体和关系组合形成的场景图有很多变化,导致模型很难有效表达这么多变化,最终导致语义合成的学习效果不理想。我们称之为组合爆炸问题。

3.1.2语义构图评价指标的缺失

另一大挑战是:如何直接自动化评价语义构图生成的好坏?

过去绝大部分工作采用间接自动化评价的方式进行,对由语义构图生成后的图像给予打分,利用Inceptionscore或Imagecaptioningscore。这样做根本无法评价语义构图的生成好坏,很大程度上只评估了最终的GAN网络是否有效。很多工作还加入了人工评分,虽给出了评分结果,但其几乎不可能被完全复现,这极大地阻碍了本领域的发展。

3.2Seq-SG2SL的动机

Seq-SG2SL是我们针对组合爆炸问题提出的一个由场景图生成语义构图的框架。本节不谈框架本身,先讲个故事。

故事背景:老师需要教学生学习如何通过看建筑图纸去建楼。如图7。

图7:上图是建筑图纸示意,下图是建成的房间示意(图片来源于网络)。

A老师教快班。他指着一摞厚厚的图纸对学生们说:“看,这是之前的图纸,上面有按图纸建好的大楼地址,你们拿这些图纸去看看那些大楼,应该就能悟出来大楼是怎么建的了。以后我给你一张新图纸,你们就能建出大楼了。”学生们按照A老师的方法,纷纷去学了。当A老师测验时发现,几乎没有学生可以照图纸盖出大楼,A老师生气地说:“还快班呢,这群学生也太没有悟性了,举一反三都不会。”

B老师教慢班。他对学生们说:“我给大家一些图纸,今天我先教大家怎么建客厅,明天教怎么建厨房。我们的目标是先把每个房间的建造套路学到,再教大家怎么串起来建一整间房。最后再教你们怎么建栋楼。看看这些图纸,不必着急,我会告诉你们每一部分都和实际建筑里的哪一部分相对应,虽然整栋建筑看起来都不一样,但这些局部是很有套路的,掌握以后保管你们都会盖大楼。”果然,在B老师的悉心教导下,所有同学都很快通过了测验,连小笨笨源方都学会了怎么看图纸建大楼。

故事中,A老师的学生虽然是快班的,都很聪明,但是大楼千变万化,学生们通过这些图纸很难学到其中的共性。而B老师的学生,虽然整体学习比较慢,记性也不好,但B老师通过教授建大楼所需要的一些基础知识,将这些具有共性的要点教给学生,结果笨鸟得以先飞。

场景图就好比建筑图纸,语义构图就好比大楼。A老师的教学方法其实就遇到了组合爆炸的问题,B老师通过教授最基础的建楼操作避免了组合爆炸的问题。

由此启发,我们提出了一种全新的视角,去看待由场景图生成语义构图的问题。语义构图是一个结果,我们要学习的不应该是直接这个结果,而是产生这个结果的过程。通过对更基础单元的学习,解决组合爆炸问题。

3.3SLEU的动机

为了解决缺乏直接自动化评估指标的问题,我们提出了一个新指标:semanticlayoutevaluationunderstudy,简称SLEU。这个指标是受到著名的机器翻译指标BLEU启发而来。

背后的逻辑是这样的:

1)要想完成自动化评估,必须需要真值。2)SLEU的设计目的就是要度量一个生成的语义构图与真值之间的差异。

因此,遵循上述逻辑,我们类比了机器翻译指标BLEU的设计,将BLEU的基本概念由1D扩展到2D,提出了SLEU。

3.4论文的贡献

1)提出了一个新的框架Seq-SG2SL,将语义构图看作是一系列过程叠加的结果。和以往方法不同,AI学的是生成过程而不是结果。这种序列到序列的学习方式可以解决组合爆炸问题。

2)提出了一个直接自动化评价语义构图生成好坏的指标SLEU,将会解决本领域存在的结果复现问题,为不同构图生成方法的直接比较提供基础。

4.方法要点简述

4.1Seq-SG2SL框架

图8:Seq-SG2SL框架。

什么决定了一张语义构图呢?是关系。因此,一个场景图中的关系三元组(主-谓-宾),决定了组成一张语义构图中的主语和宾语所对应的两个bbox。其中主语和宾语所对应的bbox,分别称为视觉主语(visualsubject)和视觉宾语(visualobject)。

由此,产生语义构图的过程可拆解为一系列基础动作片段,每一个基础动作片段称为一个brick-actioncodesegments(BACS)。每一个BACS执行的操作就是将一个视觉主语和一个视觉宾语摆放到语义构图中,分别调整他们的类别,位置以及大小。而每一BACS恰恰由其在场景图中所对应的关系三元组所决定。一个关系三元组主-谓-宾顺序相接,三个词组成了一个基础语义片段,我们叫做一个semanticfragments(SF)。如图8,treebysidewalk就是一个SF,它对应的图中BACSSequence所示的那10个code(c0002…h14)就是一个BACS,而这10个code执行的结果就是最右侧layout图中tree和sidewalk两个bbox。

将一系列SF进行串联,形成了SF序列(SFsequence)。这个SF序列所对应的是一个由每一个对应BACS所串联形成的序列(BACSsequence)。这两个序列,就像两种语言,我们需要做的只是让机器学习从SF语言“翻译”到BACS语言就好啦。当然,为了保有scenegraph中的有向图信息,我们额外维护了一个节点序列(Nodesequence),主要为了确定sequence中的哪些实体属于同一个实体,并且能够通过节点序列直接将场景图中的实体属性传递到语义构图中的bbox上。这样,整个Seq-SG2SL框架做到了灵活且通用。

回想一下,这个过程是不是像我们之前讲过的那个老师教学生从设计图纸建楼的故事。我们看到了设计图纸(scenegraph)中的一个局部(一个SF),然后我们去学习大楼(semanticlayout)中的这个对应局部是怎么建的(学习一个BACS),最后再综合,教学生去建整幢建筑。这样做是不是很直观,也符合客观规律,我们不要求我们的学生(模型)都是天才般的存在,但是需要我们这个老师教授方式得法,才能最终达到好的效果。


框架的主要思想就讲完了,细节的话感兴趣的读者可以去看论文。

4.2SLEU指标

在介绍SLEU之前,我们希望读者已经熟悉什么是机器翻译中的BLEU指标。

BLEU的基础是n-gram。n-gram是指文本中连续出现的n个词语(word),是基于(n-1)阶马尔科夫链的一种概率语言模型。简单地说,其假设当前第n个词出现的概率,仅取决于其前(n-1)个词,而跟更前的词无关。在机器翻译中,BLEU评估的基本单位是word,一个unigram代表一个word,评估翻译的充分性,而较长的n-gram代表一个word序列,评估翻译的流畅性。BLEU的思想是将句子拆分为n-grams,评估局部相似度,进而对整体翻译效果进行打分。

对于机器翻译而言,最小可拆分单元是一个word,那对于语义构图生成问题而言,最小可拆分单元又是什么?是一个关系。因此,对于语义构图生成来说,我们的unigram变为了一个关系。评估充分性就是评估单个关系是否匹配;评估流畅性就是评估n个关系是否会同时匹配。我们同样做了n阶马尔科夫链的假设,即:一个关系的出现,只取决于不超过(n-1)个其他关系,而和更多的关系无关。由于场景图和语义构图中的物体是一一对应的,因此没有precision和recall的概念,我们称对单个关系的评估,叫做unigramaccuracy,而对多个关系的评估叫做n-gramaccuracy。

具体设计我就不在这里细讲了,将关系看做unigram是我们的核心思想。我们的工作只是将这个概念设计出来,将BLEU的概念由1D推广到2D罢了。感兴趣的读者可以参考论文,指标的实现也将会开源。

5.实验结果预览

图9:由Seq-SG2SL框架在测试集上的一些结果展示。

上图是一些利用Seq-SG2SL在测试集上的生成的结果,其中第一行为输入,第二行为生成的语义构图,第三行是一个参考的语义构图及其对应图像。可以看出,我们的结果可以对含有多个关系的复杂场景进行构图生成。

这里只做个引子,更多定量的分析在论文中详细阐述,主要包括与baseline算法的比较,以及一些关于具体设计的必要性实验等。由于只是导读,结论及未来工作等在此也概不赘述啦,感兴趣的读者可以直接看论文。

本文是ICCV2019录用论文《Seq-SG2SL:基于序列到序列学习的由场景图生成语义构图的算法》的导读,并不涉及论文中的全部内容,只重点阐述我们对一些问题的思考。虽以论文为背景,但行文上试图以更科普的形式逐步展示给读者,期望对后续研究及应用场景有所启发。

本文由@源方执笔,成果是几位小伙伴共同的结晶@帆月@坎特@铭杨,我们来自阿里AILabs感知实验室。如果您对研究感兴趣,或者对业务方向有灵感,欢迎您致信:[boren.lbr@alibaba-inc.com],我们会很高兴和您讨论。

论文下载链接:
https://arxiv.org/abs/1908.06592

参考文献:

[1]Qiaoetal.,MirrorGAN:LearningText-To-ImageGenerationbyRedescription,CVPR2019.

[2]Johnsonetal.,ImageRetrievalUsingSceneGraphs,CVPR2015.
[3]https://github.com/SummitKwan/transparent_latent_gan
[4]Zhangetal.,StackGan:TexttoPhoto-realisticImageSynthesiswithStackedGenerativeAdversarialNetworks,ICCV2017.
[5]Johnsonetal.,ImageGenerationfromSceneGraphs,CVPR2018.
[6]Krishnaetal.,VisualGenome:ConnectingLanguageandVisionUsingCrowdsourcedDenseImageAnnotations,IJCV2017.

相关内容

热门资讯

头条推荐!牛牛房卡官网/荣耀联... 头条推荐!牛牛房卡官网/荣耀联盟牛牛房卡批发价Sa9Ix苹果iPhone 17手机即将进入量产阶段。...
第一次了解!火狐棋牌外挂辅助神... 亲,火狐棋牌这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总...
一分钟了解,如何购买金花房卡/... 1.微信渠道:(亚金方乐)大厅介绍:咨询房/卡添加微信:88355042 2.微信游戏中心:打开微...
一分钟教你!微信金花房卡从哪购... DDH同时新的iPhone将迎来全新的iOS 16系统。iOS16系统升级了交互功能,并且升级更新了...
重大通报,牛牛房卡游戏平台加盟... 重大通报,牛牛房卡游戏平台加盟/乐乐大厅房卡链接怎么弄的乐乐大厅是一款非常受欢迎的游戏,咨询房/卡添...