分享好友 最新动态首页 最新动态分类 切换频道
4. Self-taught Learning: Transfer Learning from Unlabelled Data
2024-12-26 22:32
1.目标的检测、分类和识别都为图像语义的理解服务理解是硬道理

   2.不在于图像理解模型是否与人类的认知过程一致,关键是要有效

   3.图像是最自然的自然语言,图像理解可以借鉴自然语言处理中的方法。

                 

   CVPRICCVECCVIJCVPAMIJOV等国际会议和期刊中,我们可以看出目前关于目标检测(如车辆检测、人脸检测和行人检测等)、目标识别(如人脸识别)、目标分类、场景理解等的文献非常多。面对如此多的文献,我晕,我倒。敢问“CV”路在何方。为了不让自己在如此多的文献中迷失了方向,本文结合我的研究方向(图像理解)在文献堆中杀出一条血路,梳理出一条主线。

从计算机信息处理的角度来看,个人认为一个完整的图像理解系统可以分为以下的四个层次:数据层、描述层、认知层和应用层(注:此分层方法类似于Selfridge(谢夫里奇)于1959年提出的小妖模型Pandemonium Model)。二者的不同在于Selfridge的小妖模型是从认知的角度提出的一个模式识别的计算机模型,而本文是从信息处理的角度提出的一个图像理解系统分层框架;其次二者每层的任务也是不一样的)。各层的功能如下

数据层:获取图像数据,这里的图像可以是二值图、灰度图、彩色的和深度图等,本文主要针对摄像头采集到的彩色照片/灰度图。主要涉及到图像的压缩和传输。数字图像的基本操作如:平滑、滤波等一些去噪操作亦可归入该层。该层的主要操作对象是象素。

描述层:提取特征,度量特征之间的相似性(即距离 采用的技术有子空间方法(Subspace)如:ISA,ICA,PCA, 。该层的主要任务就是将象素表示符号化(形式化)。

认知层:图像理解,即学习和推理(Learning and Inference;该层是图像理解系统的“发动机”。该层非常复杂,涉及面很广,正确的认知(理解)必需有强大的知识库作为支撑。该层操作的主要对象是符号。具体的任务还包括数据库的建立。

应用层:根据任务需求(分类、识别、检测(ps:如果是视频理解,还包括跟踪,设计相应的分类器、学习算法等。

 

图像理解的潜在应用包括

1。智能视觉监控

2. 图像检索

3. 图像补充

    4.图像和文本之间的相互转换

     (1)Image2TextI2T:将图像翻译成文本,不仅要描述出图像中的物体,而且要概括出这些物体的组合所表达的中心思想。从这个意义上,可以把这个应用称为“图像摘要”Image AbstractIA)。

       (2)  Text2ImageT2I:将文本转化为图像。具体的应用如

  a 根据用户输入的一段文字,让电脑自动为其配图,让电脑自动为你用图解释图片auto-illustration

   b 让电脑根据歌词自动制作MTV

   图像和文本之间的相互转换涉及到图像的场景识别与理解、目标的检测和识别、图像融合等,可以说是图像理解中最具挑战性的和最具趣味性的研究课题。

  如果这个转换研究成功的话,那么电脑就具有“看图说话”、“看书作图”的能力。注意这里的文本,可以是现代文、歌词、唐诗、宋词等,也可以是音乐、歌谱、声音等等。

    太佩服自己了,竟然总结出如此的应用。哈哈。

  

 

 

本文的后续部分是文章的阅读笔记,每篇文章将按照上述的四个层次进行总结。

 

  

 

  【关于作者】

   MITAssociate Professor,主要的研究方向是场景识别和目标识别scene and object recognition.目前的研究中通常将目标识别和场景识别分开研究,作者希望搭建一个融合这个识别任务的系统。其代表作有LableMe80million imagesGistShareing features等。A. TorralbaScene Understanding SymposiumSUnS)的主要组织者和参与者,其个人主页http://web.mit.edu/torralba/www/.

  【文章摘要】

“模型+数据库”是计算机视觉中目标和场景识别重点研究的两个方面。但从目前的文献来看,大部分的研究集中在如何构建一个更好的模型,对数据集的关注相对较少。本文作者眼光独到,从建造一个大规模的数据库入手,告诉我们:如果数据库大了,做什么都好办。

作者利用关键字搜索在一些著名的搜索引擎上收集图片,经过8个月的努力,最终收集整理了79302017张图片32*32,每张图片对应一个单词(即,一个语义标注,用到的名词共有75062个。整个数据库不压缩的话要占用750G的硬盘空间,规模之大实在是空前的。

  由于标注中存在中噪音,文中作者借助wordnet进行消除。基于如此庞大的数据库,作者向我们展示了如何利用它和wordnet voting scheme进行人体检测person detection)、人体定位person localization)、场景识别scene recognition)、自动图像标注automatic image annotation)及图像着色Image Colorization)等有趣的应用。文中所采用的方法,但是很有效,这主要归功于作者所建立的数据库。“林子大了,什么鸟多有”。在80 million这样的数据库中,找两张相似度较高的图片概率是很大的,因此目标的检测和识别也就变得更加容易了。

  更多关于此数据库的信息参见http://people.csail.mit.edu/torralba/tinyimages/

  在四层模型中,可以将其划入认知层中,因为数据库的建立是认知层的一个任务。 

 
      【关于作者】
    【文章摘要】
    在图像标注的研究中,目前还没有一个通用的数据库。因为将一张图片(或者视频中的某一帧)中出现的每个目标都赋予一个语义标签semantical label )是一件非常费时费力的事情。本文作者介绍了他们设计开发的一套基于网络的图像标注工具---LabelMe。该工具方便易用,可以工作在不同的平台中,标注后的结果存储在xml文件中,易于使用和扩展。所有参与标注的人员可以共享此标注数据库,随着时间的推移和参与人数的增加,数据库的规模和质量在不断的提高。
    文中作者还指出了1)利用WordNet来提高标注的质量,解决对于同一物体不同用户的命名不同的,即同义词问题2)解决重叠区域overlap area)的方法3)利用LabelMe,实现半自动标注(semi-automatic labeling)。最后,作者从类别数#categories)、图像数#images)、标注数目#annotations)及标注的类型annotation type)四个方面将比较了LableMe数据库与Caltech-101MSRCCBCL-StreetscenesPascal2006作比较。
        本文重点关注的是图像标注中训练数据库的搭建,在图像理解的四层模型中可以将它划分到认知层。
    【关于作者】
    Andreas Wendel是奥地利格拉茨大学本科生,其导师Axel PinzA. Pinz写了一篇相当不错的综述性文章《Object Categorization(Foundations and Trends in Computer Graphics and Vision, 2005)。

【文章摘要】

自从A. Torralba提出tiny images,很多研究者开始从事这方面的研究。本文通过实验说明1)对于场景分类来说32*32的分辨率已经足够2)当图片的分辨率很小时,颜色是场景分类中的一个重要信息。文章作者所采用的特征(区域直方图)和分类方法knn)都相当简单,但是却取得了46%的识别率。

本文作者采用的图像特征虽然简单,但是其思想相当不错。作者通过归一化图像块(8*8)的直方图,并计算其熵,用熵的平方作为该图像块的权值;然后将图像快划分为left, right, top, bottom, center五个区域,将其相应的图像块直方图累加起来。这种带权值的区域直方图思想值得借鉴,因为该方法能在一定程度上反应出图像的空间位置关系。

本文重点要传递的思想是:利用tiny images进行场景的分类是一个有趣的、有效的方法。在图像理解的四层模型中,本文所描述的区域直方图属于表示层。

作者在文章的最后对有关tiny images的研究进行了展望

“…, one could use tiny images as detector for salient points. It would be possible to divide an image into a set of tiny images, which are then classified into predefined keypoint categories. If the tiny image is not rejected, it can be assigned to a class of keypoints and therefore describes the image with quite accurate localization. As a result, individual salient points – unrelated to edges or gradients – could be defined.”

 

【关于作者】

        R. Rainahomepagehttp://www.stanford.edu/~rajatr/)师从Andrew Y. Ng,在斯坦福大学AI Lab学习。研究方向是机器学习及其应用,目前主要研究是借鉴神经科学的非监督Unsupervised)学习算法。

 

【文章摘要】

     Self-taught Learning,自己教自己学习的学习?香港科技大学杨强教授将其翻译成“无师自通”,相当准确传神。

本文提出的“无师自通”迁移学习方法是一种新的机器学习框架。它不同于传统的监督学习Supervised Learning)、无监督学习和增强学习Reinforcement Learning,或者称为“Learning with a critic---基于评价的学习,该方法通过从未标记数据样本Unlabeled Data)中学习到一个紧凑的、有效的表示Representation(即,从未标记样本中学习一个较高层次的特征表示方法,然后将学习到的特征表示方法应用到监督学习任务中。“无师自通”学习方法不仅利用到了Labeled Data,也用到了Unlabeled Data,所以它既不是监督学习,也不是非监督学习,而是一种半监督学习Semi-supervised Learning,关于半监督学习的综述参见[Zhu, 2008] Semi-supervised Learning Literature Survey)。

Self-taught Learning究竟迁移什么东西呢?它将从未标签数据样本中学到的数据表示方法(可以看成知识)迁移到带标签的数据样本中。该方法本质上可以看成是一种特征空间的变换,或者说“维数约减”(注:其实,维数约减说法比较不确切,因为诸如PCA之类的维数约减方法变换之后的维数通常比原来的维数少,但是本文的特征空间变换采用Sparse Coding,变换后的维数可以比原来的维数大)。目前关于半监督学习的方法很多,而Self-taught Learning的独特之处在于它不要求未标记的数据样本和已标记的数据样本1)标记集一样2)二者独立同分布iid)。

本文提出的“Self-taught Learning”算法可以归纳为求解两个优化问题。

1.通过Sparse Coding方法求解未标记数据样本集的“基元”basic elements)。注意1)基元的个数可以大于未标记样本的维数2)基元集不要求是正交集。这两点是Sparse CodingPCA方法的显著区别。该优化问题的直观解释就是寻找一组基,使得在该基下,重构误差和重构系数尽可能地小。

2.求解完第一个优化问题后,获得了一组基。接下来要做的就是求已标记的样本集在这组基下的系数,文中将这个过程建模为一个优化问题特征向量,即在基下的“最优”系数。

        最后,作者通过图像分类、手写体识别和文本分类等应用,验证了“无师自通”这种半监督学习方法的有效性。作者还指出了一个具有重要的理论价值的研究:未标记样本集和已标记样本集之间的相似性是如何影响到Self-taught Learning算法的性能。

       在图像理解的四层模型中,本文提出的Self-taught Learning旨在通过未标记样本集学习到一个比较有效的特征表示方法,并将该方法迁移到已标记的样本集中,因此可以将其归类到表示层。

 

【关于作者】

   R. C. F. Wong,研究的主要方向是图像的语义检索、统计视觉计算等。

【文章摘要】

   在拍摄不同场景的图片时,拍摄者一般会选择不同的图像获取参数image acquisition parameters)。如拍摄风景画是,为了尽量能把所看到的景物都拍摄下来,一般会将光圈调小,物距较长;拍人物肖像的时候,一般物距较小;拍体育图片的时候,一般采用长焦距镜头、快门等。因此根据拍摄时摄像机的参数aperture---孔径、exposure time---曝光时间、subject distance---物距、focal length---焦距、fire activation---闪光,可以确定以一幅图片的类别。文中采用决策树判别方法学习到10条规则对图像进行场景分类。

  本文虽然能对Web上的图像进行自动的语义标注,但是每一幅图像只有一个类别的标签,且类别的数目有限,因此这种标注方式对图像的描述能力十分有限。文中虽然提出了将图像的拍摄参数和底层信息(颜色特征、纹理特征和形状特征)相结合的自动语义标注系统,但是没有给出具体的实现方案和实验结果。

  本文最大的贡献在于提出了利用物理层的信息(图像拍摄参数)对图片进行语义标注。在图像理解的四层模型中,可将“基于图像获取参数的语义标注”划分到表示层中。

 

【作  者】

Jia Li(http://www.stat.psu.edu/~jiali/),,中国人Stanford博士毕业,现在PSU,与James Z. Wang(http://wang.ist.psu.edu/docs/home.shtml)同事。主要研究方向是统计学习及其在计算机视觉中的应用(如Image Annotation, Image Retrieval,代表性研究成果Automatic Linguistic Indexing of Picture – Real Time: ALIPRhttp://alipr.com)。

 

【文章摘要】

   现有的图像搜索引擎如Google, MSN,主要依据图片所在网页中的文字信息。通过这种方式对图片进行标注,存在着大量的噪声。对图片进行分类/标注,是语义图像检索中的一个关键步骤,也是计算机视觉中的难点和前沿问题。

   本文和大多数文章一样,将图像的标注问题看成是一个分类问题。因此贯穿这篇文章的主线就是“特征提取特征选择(变换 -聚类 建立模型(分类器)”。在特征提取阶段,作者提出了一种新的特征表示方法,这种特征综合了颜色和纹理信息,同时记录了各个信息的分布情况(概率)。由于这种表示方法不是定长,因此作者提出了一个相应的聚类算法(类似于K-MeansDiscrete Distribution Clustering。相似性度量采用Mallows Distance。通过聚类获得了一些表示概念(语义标签)的prototype(用质心表示,通过计算每张图像到质心的距离,利用距离建立起质心所在区域的模型。最后将这些模型这些加权来表示某一语义标签。

   本文的解决问题的思路与Kah-Kay Sung的《Example-Based Learning for View-Based Human Face Detection》极其相像。在图像理解的四层模型中,作者的主要贡献在于表示层。同时本文提出的标注方法效率高,达到了实时。

   在文章的展望部分作者提出了1。加入3D信息和形状信息以提高模型的准确性2。建立更大规模的数据库3。充分利用上下文信息。个人认为通过加入3D信息以提高模型的准确性持怀疑态度。对于网络上的大量图片,一般都是没有什么联系的,通过单张图片获取3D信息这本身就是一个难题。再者3D信息对于目标识别来说非常重要,但是对于图像的语义标注来说,指导意义不大。



最新文章
百度权威发布:政媒强强合作,共筑权威内容新生态
##百度APP携手近百家政府机构和媒体,打造“百度权威发布”内容阵地,持续深耕搜索会场、频道等场景,为海量用户提供了专业、可信的权威资讯,逐渐成为公众获取权威信息的重要窗口。近期,“百度权威发布”迎来了全面的升级焕新,推出内容
腾讯广点通广告投放怎么做?微信视频号广告开户代运营
2018年12月05日李丹竹100今日头条巨量引擎,快-手磁力智投和磁力金牛,小红书,广点通,视频号等等信息流广告投流开户代运营,直-播带货推广网络技术的研究、开发;广告业;软件服务;软件测试服务;软件批发;软件零售;软件开发;计算机技术开发
推广营销岗位职责
推广营销岗位职责(精选33篇)  根据公司的发展战略,负责通过市场调研、数据分析等制定相匹配的市场营销方案;  负责线下渠道合作规划,组织分支机构进行线下渠道开拓;  负责组织并落实各类策划方案,拓展财富类客户;  负责根据业务需
自动化运维神器Ansible_ansible 式神
和【全套学习视频及配套资料】****1.自动化运维工具对比2.ansible简介 ansible是新出现的自动化运维工具,基于Python开发,分布式,无需客户端,轻量级,实现了批量系统配置、批量程序部署、批量运行命令等功能,ans
限时攻略:百万字小说一键生成,轻松日入2000+,多种变现方式等你来拿!
限时攻略:轻松生成百万字小说,实现日收入2000元,众多变现方式等你发掘!在这个数字化与信息化迅速发展的时代,网络小说作为一种流行的文学形式,受到了广泛欢迎。这为广大读者提供了丰富的阅读体验,也为创作者拓展了全新的盈利途径。随
谷歌 Gemini-Exp-1206:生成式 AI 领域的新星,引领技术创新前沿
点击访问 chatTools 免费体验GPT最新模型,包括o1推理模型、GPT4o 和Claude等模型!技术突破:Gemini-Exp-1206 的里程碑意义 在人工智能快速发展的今天,谷歌再次交出了一份令人瞩目的答卷。Gemini-Exp-1206 作为
邢台搜狗搜索推广,邢台搜狗推广电话,邢台搜狗推广公司
邢台搜狗推广运营服务中心,负责邢台搜狗推广开户,邢台搜狗推广运营,邢台搜狗推广运营,邢台搜狗推广,邢台搜狗推广代理,邢台搜狗推广公司,邢台搜狗搜狗推广,邢台搜狗推广多少钱等。我们为上万家企业提供过服务。秉着客户为先,服务至
揭秘互联网SEO优化,策略、技巧与实践全攻略
深度解析互联网SEO优化,本文探讨了策略、技巧与实践。从关键词研究、内容优化到链接建设,详细解析了提升网站排名的关键要素。通过案例分析,揭示了SEO优化在提升网站流量和率中的重要作用。随着互联网的飞速发展,企业对网络营销的重视程
如何调教AI,让它成为你的工作超能助手
三、运用职场模型提升输出质量 为了让AI更高效地应对你的需求,运用一些经典的职场沟通模型,将会大大提升内容的专业度。其中,金字塔原理强调先给出结论并进行层层展开,英雄之路则注重讲述一个充满挑战的故事,而PREP模型(观点-理由-例
香港正版资料免费资料大全一|仔细作答解释落实
深入解析与免费获取途径香港,作为一个国际化的都市,拥有丰富多样的信息资源,在众多领域中,香港正版资料因其准确性、权威性和专业性备受推崇,对于广大用户来说,如何获取这些正版资料成为一大难题,本文将围绕“香港正版资料免费资料大
相关文章
推荐文章
发表评论
0评