你可以想象一下,这可以用于帮助你有选择的编辑一些照片,或者用于拼接一张全新的照片;我们还能马上想出更多的应用场景。
解决语义分割问题可以有很多方法,但是一个最有效的算法是像素级分类:训练一个分类器在像素级别预测每一个对象(如汽车、街道、树、墙等)分布情况。这个任务带给机器学习一些计算问题,特别是图片包括很多的像素的时候(例如,诺基亚1020智能手机拍照的像素是4100万像素)。这就意味着整个运算时间是我们分类任务全部训练和测试样本图片乘以几百万的倍数。
这个问题的规模促使我们寻找一个更有效的分类模型——决策树(也称为随机树或随机决策树)。一个决策树是一个分离训练后的决策树的集合,如下图所示。
每一决策树都有一个根节点,多个内部“分支”节点,和多个叶子节点。测试分类时,从根节点开始,并且计算二叉“分支函数”,这个函数可能就像“这个像素是否比它的邻域像素更红”一样简单。根据该二元决策,它将沿分支向左或向右,接下来查看下一个“分支函数”,一直重复这样的操作。当最终达到叶子节点,一个存储的预测——通常是一个包含类别标签的直方图——就是输出(你也可以去看一下ChrisBurges最近的一篇非常出色的论文,是关于提升变种决策树在搜索排名中的应用)。
决策树的美在于他的执行效率:虽然从根节点到叶子节点包含指数级可能的路径,但是任意一个独立的测试像素仅仅通过一个路经。此外,分支函数的计算是以此前的事件为条件的:例如,分类器只需要依赖此前分支决策的答案提出正确的问题就行了。这很像“20问”游戏:当你仅被允许去问少量问题时,你可以很快学会根据你以前问题的答案来调整自己要提出的下一个问题。
有了这项技术,我们已经能够成功处理这些不同的问题,如照片的语义分割,街头的场景分割,人体解剖学的3D医学扫描图像分割,摄像头的重定位和使用Kinect深度摄像头对人体身体部位的划分。对于Kinect来讲,决策树测试时间效率是关键:我们有一个非常严格的计算预算,但是这样的计算要求搭配XboxGPU并行处理像素的能力,意味着我们能够适应这种应用场景。
深层神经网络
在过去的几年里,我们视觉研究者所使用的测试数据集无论在质量上,还是数量上都有了快速的提高。这些进步在很大程度归因于吸收了众包的成果。众包项目允许我们把数百万张已标记图像加入测试数据集。其中一个最具挑战性的测试数据集ImageNet,就包含了数万个种类、超过百万张已标注层次的图像。
然而多年来,对ImageNet测试数据集的识别工作进展较缓慢,直到2012年,Krizhevsky等人的成果震惊了业界。他们使用通用GPU配合一些看似细微的算法改进,从而更深层次地训练卷积神经网络。最终,他们在ImageNet的1000个分类测试中显著提升了图像分类的准确性。这项成果还赢得了大众媒体的关注,甚至导致相关的初创公司被大笔收购。自从那以后,“深度学习”开始成为计算机视觉领域的热门话题,而最近发表的文章也开始涵盖到物体定位、脸部识别和人体姿势识别等与“深度学习”息息相关的内容。
展望未来
深度卷积网络毫无疑问是相当强大的,然而它真的能解决计算机视觉领域的一切问题吗?可以肯定的是,它还会继续火热下去并且推动业界未来几年的发展,同时我们也相信未来还会有新的突破性进展。谁也说不准会有哪些突破,但我们会为你预测一些我们认为很有可能实现的突破点:
语义分析:以上的网络模型只能学会理解图像内容的表意,而不能深入理解图像中各个物体、物体之间如何相互联系以及特定物体在生活情景中的作用,例如我们不能轻率地根据头发看起来会有点光泽,和他们拿着电吹风这一事实,很有把握地推断他们的头发是湿的。像微软CoCo这样的新型测试数据集就可以帮助增强语义分析。该数据集对抽象图像提供非常详尽的分类标注,例如包含多个主体的图像会被标记出不重要的部分。
运行效率:虽然对测试图片的深度网络评估过程可以通过并行计算来加速,但是神经网络的构造并没有在上一篇中提及的逻辑运算概念:每一个训练样例必须通过遍历网络中的所有节点来输出结果。再者,即使配备高速的GPU,训练网络也要花费数天甚至数周,这使得深度网络不能快速投入试用。
结构学习:经过多年的研究发展,深度卷积网络现在拥有一个设计完善、相对死板的结构。也就是说,改变某一层大小或层级的数量会对模型做出预测的能力产生不良影响。除了简单粗暴地输入特定参数来最优化网络的形态,我们希望可以真正地直接从数据中学习出更加灵活的网络结构。
近年来,我们已经开始寻找突破这些瓶颈的方案。现在,我们很高兴能向你推荐我们最新的成果,决策丛林模型:根部相连接的决策有向无环图。你可以认为决策有向无环图是子节点相通的决策树,因此一个子节点可以存在多个父节点。我们不但证明了这种模型在内存消耗上比决策树降低了一个数量级,同时还能大大提高模型的泛化能力。有向无环图起初看起来很像神经网络,但是有两个重要的不同点:第一,其结构和模型参数都是从数据中学习而来的;第二,有向无环图保留了决策树中高效的逻辑运算:一个测试样例只沿着有向无环图的一条路径传递,而不是像神经网络一样遍历所有节点。我们正在积极尝试结合其他深度学习的形态,譬如结果的复用和树节点的纠缠,使得决策丛林能够真正有效地替代深度神经网络。
如果你对运用决策丛林模型解决问题感兴趣,Azure机器学习云平台中的Gemini模块将能带你探索得更深入。
总的来说,计算机视觉的前途一片光明,其中很大程度归功于机器学习。即便近年来视觉领域的快速发展已经让人难以置信了,但我们认为计算机视觉的研究未来还会震惊世界。