您的位置:   网站首页    行业动态    计算机视觉方向20191021

计算机视觉方向20191021

阅读量:3633429 2019-10-21


关注即可获取arXiv每日论文自动推送;
如果您有任何问题或建议,请公众号留言。
[如果您觉得本公众号对你有帮助,就是我们最大的荣幸]
今日 cs.CV方向共计34篇文章。检测(4篇)[1]:Single and Cross-Dimensional Feature Detection and Description: An  Evaluation
标题:单维和跨维特征检测与描述的评价
作者:Odysseas Kechagias-Stamatis, Nabil Aouf, Mark A. Richardson
链接:https://arxiv.org/abs/1910.08515
摘要:三维局部特征检测与描述技术广泛应用于目标的配准与识别中。虽然已经发表了对三维局部特征检测和描述方法的一些评估,但这些评估都被限制在一个一维方案中,即应用于三维数据的多个投影的三维或二维方法。然而,交叉维(二维和三维混合)特征的检测和描述还没有研究。在这里,我们评估了几种三维数据集上的单维和跨维特征检测和描述方法的性能,并证明了跨维方案比单维方案的优越性。
[2]:A novel centroid update approach for clustering-based superpixel method  and superpixel-based edge detection
标题:一种新的基于聚类的质心更新方法超像素法和基于超像素的边缘检测
作者:Houwang Zhang, Chong Wu, Le Zhang, Hanying Zheng
链接:https://arxiv.org/abs/1910.08439
摘要:超像素在图像处理中有着广泛的应用。在超像素生成方法中,基于聚类的方法具有速度快、性能好的特点。然而,大多数基于聚类的超混合方法对噪声敏感。为了解决这些问题,本文首先分析了噪声的特点。然后根据噪声的统计特性,提出了一种新的质心更新方法,以增强基于聚类的超像素方法的鲁棒性。此外,我们还提出了一种新的基于超像素的边缘检测方法。在BSD500数据集上的实验表明,该方法能显著提高基于聚类的超像素方法在噪声环境下的性能。此外,我们还证明了我们提出的边缘检测方法优于其他经典方法。
[3]:AFO-TAD: Anchor-free One-Stage Detector for Temporal Action Detection
标题:AFO-TAD:用于时间动作检测的无锚单级检测器
作者:Yiping Tang, Chuang Niu, Minghao Dong, Shenghan Ren, Jimin Liang
链接:https://arxiv.org/abs/1910.08250
摘要:时间动作检测是视频理解中的一项基础性而又具有挑战性的任务。许多最先进的方法基于与二维目标检测检测器类似的预定锚来预测动作实例的边界。然而,由于未经修剪的视频中的实例持续时间可以从几秒到几分钟不等,因此很难检测出所有具有预定时间尺度的动作实例。本文提出了一种新的动作检测体系结构:无锚一级时间动作检测器(AFO-TAD)。AFO-TAD在检测任意长度和高时间分辨率的动作实例方面取得了更好的性能,这可以归结为两个方面。首先,我们设计了一个接收场自适应模块,动态调整接收场以实现精确的动作检测。其次,AFO-TAD直接预测每个时间位置的类别和边界,而无需预先确定锚。大量实验表明,AFO-TAD提高了THUMOS'14的最新性能。
[4]:A Deep Learning-based Framework for the Detection of Schools of Herring  in Echograms
标题:基于深度学习的回声图鲱鱼群检测框架
作者:Alireza Rezvanifar, Tunai Porto Marques, Melissa Cote, Alexandra Branzan Albu, Alex Slonimer, Thomas Tolhurst, Kaan Ersahin, Todd Mudge, Stephane Gauthier
备注:Accepted to NeurIPS 2019 workshop on Tackling Climate Change with Machine Learning, Vancouver, Canada
链接:https://arxiv.org/abs/1910.08215
摘要:追踪水下物种的丰富度对于了解气候变化对海洋生态系统的影响至关重要。生物学家通常使用回声探测仪监测水下地点,并将数据可视化为二维图像(回声图);他们手动或半自动解释这些数据,这很费时,而且容易出现不一致。本文提出了一种利用回声图自动检测鲱鱼群的深度学习框架。实验表明,该方法优于传统的基于手工特征的机器学习算法。我们的框架可以很容易地扩大,以发现更多对可持续渔业感兴趣的物种。
分割(1篇)[1]:Diversity in Fashion Recommendation using Semantic Parsing
标题:基于语义分析的服装推荐多样性研究
作者:Sagar Verma, Sukhad Anand, Chetan Arora, Atul Rai
备注:5 pages, ICIP2018, code:this https URL
链接:https://arxiv.org/abs/1910.08292
摘要:开发时尚图片推荐系统具有挑战性,因为用户所关注的标准具有内在的模糊性。根据不同的特征或部分,在每个输出图像与查询图像相似的情况下建议多个图像是减轻问题的一种方法。现有的时装推荐作品使用暹罗或三线网络来学习相似的对和相似的不相似的三重态之间的特征。然而,这些方法没有提供基本信息,例如,两个服装图像是如何相似的,或者两个图像中的哪些部分使它们相似。在本文中,我们建议通过显式学习和利用基于部分的相似性来推荐图像。提出了一种利用视觉注意和纹理编码网络从弱监督数据中学习鉴别特征的新方法。结果表明,在DeepFashion数据集的检索任务中,所学习到的特征超过了最新的检索任务。然后,我们使用所提出的模型来推荐对任何部分的相似性具有明显变化的时装图像。
分类、识别(3篇)[1]:KerCNNs: biologically inspired lateral connections for classification of  corrupted images
标题:KerCNNs:用于受损图像分类的生物激励横向连接
作者:Noemi Montobbio, Laurent Bonnasse-Gahot, Giovanna Citti, Alessandro Sarti
链接:https://arxiv.org/abs/1910.08336
摘要:卷积神经网络(CNNs)是目前计算机视觉领域的研究热点。尽管它们的层次结构和局部特征提取受到灵长类视觉系统结构的启发,但这种结构缺乏横向联系,这使它们的分析与生物对象处理有着明显的区别。近年来,利用卷积型的递归侧向连接丰富CNN的思想已经在实践中得到应用,其形式是无几何约束的学习递归核。在目前的工作中,我们引入了生物学上可信的侧核来编码CNN的前馈滤波器之间的相关概念:在每一层,相关的核在激活空间上充当一个过渡核。根据滤波器定义了横向核函数,从而提供了一种基于前馈结构的无参数水平连接几何评估方法。然后,我们在一个与全局形状分析和模式完成相关的泛化任务中测试这个我们称之为KerCNN的新架构:一旦训练好执行基本图像分类,网络将在损坏的测试图像上进行评估。所检测的图像扰动旨在破坏通过局部特征对图像的识别,因此需要整合上下文信息——在生物视觉中,上下文信息与横向连接有着至关重要的联系。我们的KerCNN比CNN和反复CNN更稳定,因此验证了这种生物启发的方法,以加强在挑战性条件下的目标识别。
[2]:Texture Bias Of CNNs Limits Few-Shot Classification Performance
标题:CNNs的纹理偏差限制了镜头分类性能的提高
作者:Sam Ringer, Will Williams, Tom Ash, Remi Francis, David MacLeod
链接:https://arxiv.org/abs/1910.08519
摘要:在计算机视觉中,对少量标记数据(少量镜头分类)进行精确的图像分类仍然是一个悬而未决的问题。本文研究了卷积神经网络(CNNs)已知的纹理偏差对镜头分类性能的影响。虽然纹理偏差有助于标准图像分类,但在这项工作中,我们发现它对镜头分类性能的影响很小。在纠正了这种偏差之后,我们用一种比目前性能最好的少镜头学习方法简单得多的方法展示了竞争性minimagenet任务的最新性能。
[3]:Deep Sub-Ensembles for Fast Uncertainty Estimation in Image  Classification
标题:用于图像分类中不确定性快速估计的深子集合
作者:Matias Valdenegro-Toro
备注:6 pages, 6 figures, Bayesian Deep Learning Workshop 2019 @ NeurIPS 2019, preprint
链接:https://arxiv.org/abs/1910.08168
摘要:许多鲁棒性机器人应用需要快速估计模型的不确定性。深度集成提供了最新的不确定性,无需贝叶斯方法,但仍然是计算上的昂贵。在本文中,我们提出了深子集成,近似深度集成,其中的核心思想是只集成接近输出的层。我们的结果表明,这种思想能够在误差和不确定性质量与计算性能之间进行权衡。
跟踪(2篇)[1]:BOBBY2: Buffer Based Robust High-Speed Object Tracking
标题:BOBBY2:基于缓冲区的鲁棒高速目标跟踪
作者:Keifer Lee, Jun Jet Tai, Swee King Phang
链接:https://arxiv.org/abs/1910.08263
摘要:在这项工作中,我们介绍了一种新型的高速单目标跟踪器,这种跟踪器对非语义分心器样本具有鲁棒性。它包含了一个新的示例缓冲模块,该模块在不同时间内稀疏地缓存目标的外观,使其能够适应潜在的目标变形。在训练方面,将一个扩充的ImageNet VID数据集与单周期策略结合使用,使其能够在不到2个历元的数据量下达到收敛。为了进行验证,该模型在GOT-10k数据集上进行了基准测试,并在一个附加的小型定制无人机数据集上进行了测试,尽管该数据集具有挑战性,是用图-3无人机收集的。我们证明了样本缓冲区能够在意外目标漂移的情况下提供冗余,这是任何中长期跟踪的理想特性。即使缓冲区主要由干扰器而不是有效的样本填充,BOBBY2也能够保持接近最佳的精度水平。BOBBY2在GOT-10k数据集和具有挑战性的定制TU-3数据集上取得了非常有竞争力的结果,但没有进行微调,这证明了它的通用性。在速度方面,BOBBY2使用了一个精简的AlexNet作为特征提取器,其参数比普通AlexNet少63%,因此能够以85 FPS的竞争速度运行。
[2]:Eye in the Sky: Drone-Based Object Tracking and 3D Localization
标题:空中之眼:基于无人机的目标跟踪和三维定位
作者:Haotian Zhang, Gaoang Wang, Zhichao Lei, Jenq-Neng Hwang
备注:Accepted to ACMMM2019
链接:https://arxiv.org/abs/1910.08259
摘要:无人机,或称通用无人机,配备了一个单一的摄像头,已经被广泛应用于广泛的应用领域,如航空摄影,快速货物运送,最重要的是监视。尽管在计算机视觉算法方面取得了很大的进展,但由于遮挡、相机快速运动和姿态变化等各种挑战,这些算法通常不能用于处理无人机获取的图像或视频序列。本文提出了一种基于深度学习的多目标跟踪和三维定位方案。我们首先结合了一种叫做TrackletNet跟踪器(TNT)的多目标跟踪方法,它利用时间和外观信息来跟踪地面上被探测到的目标。然后,我们还可以根据多视点立体技术估计出的群平面来定位被跟踪的地面目标。部署在无人机上的系统不仅可以检测和跟踪场景中的对象,还可以定位其相对于无人机相机的三维坐标(米)。实验证明,与目前最先进的方法相比,我们的跟踪器能够可靠地处理大部分被无人机捕获的目标,并获得良好的三维定位性能。
弱/半/无监督(1篇)[1]:Unsupervised Multi-Task Feature Learning on Point Clouds
标题:点云上的无监督多任务特征学习
作者:Kaveh Hassani, Mike Haley
备注:ICCV 2019
链接:https://arxiv.org/abs/1910.08207
摘要:提出了一种无监督的多任务模型来联合学习点云上的点和形状特征。我们定义了三个无监督任务,包括聚类、重建和自监督分类来训练一个基于多尺度图的编码器。我们在形状分类和分割基准上评估我们的模型。结果表明,该方法优于现有的无监督模型:在ModelNet40分类任务中,其分类准确率为89.1%,在ShapeNet分割任务中,其分类准确率为68.2%,分类准确率为88.6%。
Zero/One-Shot、迁移学习、Domain Adaptation(1篇)[1]:Deep Weakly-Supervised Domain Adaptation for Pain Localization in Videos
标题:视频疼痛定位的深度弱监督域自适应
作者:Gnana Praveen R, Eric Granger, Patrick Cardinal
链接:https://arxiv.org/abs/1910.08173
摘要:自动疼痛评估对于难以表达疼痛体验的患者具有重要的潜在诊断价值。面部表情作为诱发疼痛表情事件的主要非言语通道之一,在估计单个视频的疼痛强度方面有着广泛的应用。然而,在真实世界的疼痛评估应用中使用最先进的深度学习(DL)模型会带来一些挑战,这些挑战涉及面部表情的大量主观变化、操作捕捉条件以及缺乏具有代表性的带有标签的训练视频。考虑到每个视频帧的强度等级标注代价,提出了一种弱监督域自适应(WSDA)技术,用于训练DL模型,从视频中估计时空疼痛强度。深域适应操作条件依赖于弱标记的目标域视频——每个视频序列周期性地提供疼痛强度级别的标签。特别是,WSDA将多实例学习集成到对抗性的深域适应框架中,训练一个膨胀的3D-CNN(I3D)模型,使其能够准确估计目标操作域的疼痛强度。该训练机制利用弱监督损失、域损失和源监督损失对I3D模型进行域自适应。利用RECOLA数据集的标记源域视频和弱标记目标域UNBC-McMaster视频进行的实验结果表明,与现有方法相比,本文提出的deep-WSDA方法可以获得更高的序列(bag)级和帧(instance)级疼痛定位精度。
Networks(7篇)[1]:Understanding Deep Networks via Extremal Perturbations and Smooth Masks
标题:利用极值扰动和光滑掩模理解深网络
作者:Ruth Fong, Mandela Patrick, Andrea Vedaldi
备注:Accepted at ICCV 2019 as oral; supp mat atthis http URL
链接:https://arxiv.org/abs/1910.08485
摘要:The problem of attribution is concerned with identifying the parts of an input that are responsible for a model's output. An important family of attribution methods is based on measuring the effect of perturbations applied to the input. In this paper, we discuss some of the shortcomings of existing approaches to perturbation analysis and address them by introducing the concept of extremal perturbations, which are theoretically grounded and interpretable. We also introduce a number of technical innovations to compute extremal perturbations, including a new area constraint and a parametric family of smooth perturbations, which allow us to remove all tunable hyper-parameters from the optimization problem. We analyze the effect of perturbations as a function of their area, demonstrating excellent sensitivity to the spatial properties of the deep neural network under stimulation. We also extend perturbation analysis to the intermediate layers of a network. This application allows us to identify the salient channels necessary for classification, which, when visualized using feature inversion, can be used to elucidate model behavior. Lastly, we introduce TorchRay, an interpretability library built on PyTorch.
[2]:Deformable Kernel Networks for Joint Image Filtering
标题:用于联合图像滤波的可变形核网络
作者:Beomjun Kim, Jean Ponce, Bumsub Ham
备注:arXiv admin note: substantial text overlap witharXiv:1903.11286
链接:https://arxiv.org/abs/1910.08373
摘要:在诸如增强空间分辨率和抑制噪声等任务中,联合图像滤波器用于从用作目标图像之前的制导图像传输结构细节。以往的基于卷积神经网络(CNNs)的方法结合空间不变核的非线性激活来估计结构细节并对滤波结果进行回归。在本文中,我们学习了显式稀疏和空间变化的核。我们提出了一种CNN结构及其有效实现,称为可变形核网络(DKN),它自适应地为每个像素输出邻域集和相应的权重。然后将滤波结果计算为加权平均值。我们还提出了一个快速版本的DKN,它的运行速度大约是640x 480图像的17倍。我们证明了我们的模型在深度图上采样、显著图上采样、跨模态图像恢复、纹理去除和语义分割等任务上的有效性和灵活性。特别地,我们证明了稀疏采样的3×3核的加权平均过程在所有情况下都比现有的方法有显著的优势。
[3]:PointRNN: Point Recurrent Neural Network for Moving Point Cloud  Processing
标题:点云处理的点递归神经网络
作者:Hehe Fan, Yi Yang
备注:technical report
链接:https://arxiv.org/abs/1910.08287
摘要:点云技术越来越受到社会各界的关注。然而,很少有研究动态点云的工作。本文介绍了一种用于移动点云处理的点递归神经网络(PointRNN)单元。为了保持空间结构,而不是将mathbb{r}^d$中唯一的一维向量$\boldsymbol{x}作为输入,PointRNN以点的坐标$\boldsymbol{P}\in\mathbb{r}^{n\times 3}$及其特征$\boldsymbol{x}\in\mathbb{r}^{n\times d}$作为输入(n$和$d$分别表示点的数量和特征尺寸)。因此,r n n中的状态$\boldsymbol{s}\in\mathbb{r}^{d'}$扩展到了PointRNN中的$(\boldsymbol{P}、\boldsymbol{s}\in\mathbb{r}^{n\times d'})$($d'$表示状态维度的数目)。由于点云是无序的,相邻两个时间步长的特征和状态不能直接操作。因此,PointRNN将RNN中的连接操作替换为相关操作,该操作根据点的坐标聚合输入和状态。为了评估点RNN,我们将其变体之一,即点长短期记忆(PointLSTM)应用于移动点云预测,该预测旨在根据点在云中的历史移动预测其未来的轨迹。实验结果表明,PointLSTM能够对合成数据集和真实数据集做出正确的预测,证明了其对点云序列建模的有效性。此代码已在此httPs URL中发布。
[4]:Spatially-Aware Graph Neural Networks for Relational Behavior  Forecasting from Sensor Data
标题:基于传感器数据的空间感知图神经网络关联行为预测
作者:Sergio Casas, Cole Gulino, Renjie Liao, Raquel Urtasun
链接:https://arxiv.org/abs/1910.08233
摘要:本文研究了基于传感器数据的关系行为预测问题。为此,我们提出了一种新的空间感知图神经网络(SpAGNN),用于模拟场景中主体之间的交互。具体地说,我们利用卷积神经网络来检测参与者并计算其初始状态。然后,图神经网络通过消息传递过程迭代更新参与者状态。受高斯信度传播的启发,我们将消息设计成相邻代理输出分布的空间变换参数。我们的模型是完全可微的,因此可以进行端到端的训练。重要的是,我们的概率预测可以在轨迹水平上模拟不确定性。我们通过在两个真实世界的自动驾驶数据集(ATG4D和nuScenes)上实现与最新技术相比的显著改进来证明我们的方法的有效性。
[5]:SDCNet: Smoothed Dense-Convolution Network for Restoring Low-Dose  Cerebral CT Perfusion
标题:平滑密度卷积网络恢复低剂量脑CT灌注
作者:Peng Liu, Ruogu Fang
链接:https://arxiv.org/abs/1910.08364
摘要:随着公众对医学成像中累积的辐射暴露所带来的潜在癌症风险和健康危害的极大关注,降低基于x射线的医学成像(如CT灌注成像)中的辐射剂量已经引起了重大的研究兴趣。本文采用基于深卷积神经网络(CNN)的方法,引入平滑稠密卷积神经网络(SDCNet)从低剂量的CTP图像中恢复高质量的CTP图像。SDCNet由跳跃连接级联的子网络块组成,用于从成对的低/高剂量CT扫描中推断噪声(差异)。SDCNet能有效地去除低剂量CT扫描中的噪声,提高医学图像质量。我们在数千个CT灌注图像框架上评估了所提出的结构,以用于重建图像去噪和灌注图量化,包括脑血流(CBF)和脑血容量(CBV)。与目前最先进的方法相比,SDCNet在视觉和定量方面都取得了很高的性能,具有很好的计算效率。\ text它{该代码可在这个https url{获取。
[6]:Attention Mechanism Enhanced Kernel Prediction Networks for Denoising of  Burst Images
标题:注意机制增强的核预测网络在突发图像去噪中的应用
作者:Bin Zhang, Shenyao Jin, Yili Xia, Yongming Huang, Zixiang Xiong
备注:submit to ICASSP 2020
链接:https://arxiv.org/abs/1910.08313
摘要:基于深度学习的图像去噪方法得到了广泛的研究。本文提出了一种用于突发图像去噪的注意机制增强核预测网络(AME-KPNs),该网络采用几乎无代价的注意模块,首先对特征映射进行细化,进一步充分利用整个突发图像的帧间和帧内冗余。所提出的AME-KPNs输出每个像素的空间自适应核、残差映射和相应的权值映射,其中,预测核通过自适应卷积操作大致恢复其对应位置的干净像素,然后,对残差进行加权和和,以补偿预测核的有限感受野。通过仿真和实际实验,验证了该算法在突发图像去噪中的鲁棒性。
[7]:Mirror Descent View for Neural Network Quantization
标题:用于神经网络量化的镜像下降视图
作者:Thalaiyasingam Ajanthan, Kartik Gupta, Philip H. S. Torr, Richard Hartley, Puneet K. Dokania
链接:https://arxiv.org/abs/1910.08237
摘要:Quantizing large Neural Networks (NN) while maintaining the performance is highly desirable for resource-limited devices due to reduced memory and time complexity. NN quantization is usually formulated as a constrained optimization problem and optimized via a modified version of gradient descent. In this work, by interpreting the continuous parameters (unconstrained) as the dual of the quantized ones, we introduce a Mirror Descent (MD) framework (Bubeck (2015)) for NN quantization. Specifically, we provide conditions on the projections (i.e., mapping from continuous to quantized ones) which would enable us to derive valid mirror maps and in turn the respective MD updates. Furthermore, we discuss a numerically stable implementation of MD by storing an additional set of auxiliary dual variables (continuous). This update is strikingly analogous to the popular Straight Through Estimator (STE) based method which is typically viewed as a "trick" to avoid vanishing gradients issue but here we show that it is an implementation method for MD for certain projections. Our experiments on standard classification datasets (CIFAR-10/100, TinyImageNet) with convolutional and residual architectures show that our MD variants obtain fully-quantized networks with accuracies very close to the floating-point networks.
超分辨(1篇)[1]:Multimodal Image Super-resolution via Deep Unfolding with Side  Information
标题:基于边信息深度展开的多模态图像超分辨率
作者:Iman Marivani, Evaggelia Tsiligianni, Bruno Cornelis, Nikos Deligiannis
备注:5 pages, 5 figures, 3 tables, EUSIPCO 2019
链接:https://arxiv.org/abs/1910.08320
摘要:深度学习方法已经成功地应用于各种计算机视觉任务中。然而,现有的神经网络体系结构本身并不包含关于所解决问题的领域知识,因此,了解模型所学的是一个开放的研究课题。在本文中,我们依赖于迭代算法的稀疏近似与边信息的展开,并设计了一个深入的学习架构的多模态图像超分辨率结合稀疏先验,并有效地利用信息从另一个图像形态。我们开发了两个深度模型,利用第二模态的高分辨率图像,从低分辨率变体重建目标图像模态的高分辨率图像。我们将所提出的模型应用于以高分辨率RGB图像作为边信息的超分辨率近红外图像。实验结果表明,与包括单峰和多峰方法在内的最新方法相比,所提出的模型具有优越的性能。
GAN、图像文本生成(1篇)[1]:Enforcing Linearity in DNN succours Robustness and Adversarial Image  Generation
标题:DNN中增强线性度的稳健性与对抗性图像生成
作者:Anindya Sarkar, Nikhil Kumar Gupta, Raghu Iyengar
备注:Adversarial Machine Learning. arXiv admin note: text overlap witharXiv:1810.12715by other authors
链接:https://arxiv.org/abs/1910.08108
摘要:Recent studies on the adversarial vulnerability of neural networks have shown that models trained with the objective of minimizing an upper bound on the worst-case loss over all possible adversarial perturbations improve robustness against adversarial attacks. Beside exploiting adversarial training framework, we show that by enforcing a Deep Neural Network (DNN) to be linear in transformed input and feature space improves robustness significantly. We also demonstrate that by augmenting the objective function with Local Lipschitz regularizer boost robustness of the model further. Our method outperforms most sophisticated adversarial training methods and achieves state of the art adversarial accuracy on MNIST, CIFAR10 and SVHN dataset. In this paper, we also propose a novel adversarial image generation method by leveraging Inverse Representation Learning and Linearity aspect of an adversarially trained deep neural network classifier.
点云、三维重建(1篇)[1]:Toward 3D Object Reconstruction from Stereo Images
标题:基于立体图像的三维物体重建
作者:Haozhe Xie, Hongxun Yao, Shangchen Zhou, Shengping Zhang, Xiaoshuai Sun, Wenxiu Sun
链接:https://arxiv.org/abs/1910.08223
摘要:从RGB图像推断物体的3D形状已经显示出令人印象深刻的结果,然而,现有的方法主要依赖于从训练集识别最相似的3D模型来解决该问题。这些方法普遍性差,可能导致对不可见对象的低质量重建。如今,立体摄像机在双镜头智能手机和机器人等新兴设备中的应用越来越广泛,这使得利用立体图像的双视角特性来探索三维结构,从而提高重建性能。本文提出了一种新的深度学习框架,用于从一对立体图像中重建物体的三维形状,该框架通过考虑两个视图之间的双向差异和特征对应关系来解释物体的三维结构。此外,我们还提出了一个大规模的综合基准数据集,即立体视觉,包含1052976对由ShapeNet绘制的立体图像以及相应的双向深度和视差图。在立体图形基准上的实验结果表明,所提出的框架优于最新的方法。
数据集(1篇)[1]:A Dataset of Multi-Illumination Images in the Wild
标题:野外多光照图像数据集
作者:Lukas Murmann, Michael Gharbi, Miika Aittala, Fredo Durand
备注:ICCV 2019
链接:https://arxiv.org/abs/1910.08131
摘要:在单一的、不受控制的照明下收集图像,使得分类、检测和分割等核心计算机视觉任务得以快速推进。但即使使用现代学习技术,许多涉及光照和材料理解的反问题仍然存在严重的不适定性,无法用单个光照数据集来解决。为了填补这一空白,我们引入了一个新的多照明数据集,其中包含1000多个真实场景,每个场景在25种照明条件下捕获。我们通过为三个具有挑战性的应用培训最先进的模型来展示该数据集的丰富性:单图像照明估计、图像重照明和混合光源白平衡。
其他(11篇)[1]:Illumination-Based Data Augmentation for Robust Background Subtraction
标题:基于光照的鲁棒背景减法数据增强
作者:Dimitrios Sakkos, Hubert P. H. Shum, Edmond S. L. Ho
备注:SKIMA 2019 - Best Paper Award
链接:https://arxiv.org/abs/1910.08470
摘要:背景减法(BGS)的一个核心挑战是处理连续帧中亮度突然变化的视频。在本文中,我们从数据的角度出发,使用数据扩充来解决这个问题。我们的方法执行数据扩充,不仅可以动态创建无休止的数据,而且还具有照明的语义转换,从而增强模型的泛化。它通过在随机生成的二值掩模上应用欧几里德距离变换成功地模拟了闪光和阴影。这些数据使我们能够有效地为BGS训练一个光照不变的深度学习模型。实验结果表明,即使在光照发生显著变化的情况下,人工合成物对模型进行BGS的能力也有贡献。该项目的源代码在https URL上公开。
[2]:Image Deconvolution with Deep Image and Kernel Priors
标题:基于深度图像和核先验的图像反褶积
作者:Zhunxuan Wang, Zipei Wang, Qiqi Li, Hakan Bilen
备注:In Proceedings of the 2019 IEEE International Conference on Computer Vision Workshops (ICCVW)
链接:https://arxiv.org/abs/1910.08386
摘要:图像反褶积是恢复卷积退化图像的过程,由于卷积退化图像的数学不适定性,一直是一个很难解决的反问题。在最近提出的深度图像先验(DIP)的基础上,我们建立了一个具有深度图像和核先验(DIKP)的图像反褶积模型。DIP是一种利用神经网络结构来表达图像先验信息的无学习表示方法,在许多基于能量的模型中都取得了成功,如去噪、超分辨率、修复等。相反,我们的DIKP模型将传统的无学习反褶积方法与神经网络相结合,在图像反褶积中使用这样的先验知识,不仅对图像而且对核进行建模。在本文中,我们证明DIKP提高了无学习图像反褶积的性能,并在六个标准测试图像的PSNR和视觉效果的标准基准上进行了实验验证。
[3]:Automatic Data Augmentation by Learning the Deterministic Policy
标题:通过学习确定性策略实现数据自动增长
作者:Yinghuan Shi, Tiexin Qin, Yong Liu, Jiwen Lu, Yang Gao, Dinggang Shen
备注:10 pages, 6 figures
链接:https://arxiv.org/abs/1910.08343
摘要:Aiming to produce sufficient and diverse training samples, data augmentation has been demonstrated for its effectiveness in training deep models. Regarding that the criterion of the best augmentation is challenging to define, we in this paper present a novel learning-based augmentation method termed as DeepAugNet, which formulates the final augmented data as a collection of several sequentially augmented subsets. Specifically, the current augmented subset is required to maximize the performance improvement compared with the last augmented subset by learning the deterministic augmentation policy using deep reinforcement learning. By introducing an unified optimization goal, DeepAugNet intends to combine the data augmentation and the deep model training in an end-to-end training manner which is realized by simultaneously training a hybrid architecture of dueling deep Q-learning algorithm and a surrogate deep model. We extensively evaluated our proposed DeepAugNet on various benchmark datasets including Fashion MNIST, CUB, CIFAR-100 and WebCaricature. Compared with the current state-of-the-arts, our method can achieve a significant improvement in small-scale datasets, and a comparable performance in large-scale datasets. Code will be available soon.
[4]:Investigating Task-driven Latent Feasibility for Nonconvex Image  Modeling
标题:非凸图像建模的任务驱动潜在可行性研究
作者:Risheng Liu, Pan Mu, Jian Chen, Xin Fan, Zhongxuan Luo
备注:11 pages
链接:https://arxiv.org/abs/1910.08242
摘要:在各种低层视觉问题中,正确地建模潜影分布一直是关键。大多数现有的方法,如最大后验(MAP),旨在建立优化模型与先验正则化来解决这一任务。然而,设计复杂的优先级可能会导致具有挑战性的优化模型和耗时的迭代过程。最近的研究试图将可学习的网络架构嵌入到MAP方案中。不幸的是,对于具有深度训练先验的映射模型,由于其不精确和不可控制的性质,精确的行为和推理过程实际上很难被研究。本文通过研究任务驱动的地图模型的潜在可行性,为地图图像模型的领域知识和数据分布提供了一个新的视角。具体来说,我们首先将基于能量的可行性约束引入到给定的MAP模型中。通过引入目标的近端梯度更新方案,并进行自适应平均过程,我们得到一个全新的地图推理过程,称为近端平均优化(PAO),用于图像建模。由于PAO的灵活性,我们还可以将深入训练的架构纳入可行性模块。最后,我们提供了一个简单的基于单调下降的控制机制来指导PAO的传播。理论上证明了由PAO及其基于学习的扩展生成的序列能够成功地收敛到原MAP优化任务的临界点。我们演示如何应用我们的框架来处理不同的视觉应用程序。广泛的实验验证了理论结果,并显示了我们的方法对现有的最先进的方法的优势。
[5]:RPBA -- Robust Parallel Bundle Adjustment Based on Covariance  Information
标题:RPBA——基于协方差信息的鲁棒并行束平差
作者:Helmut Mayer
链接:https://arxiv.org/abs/1910.08138
摘要:所有运动结构(SfM)方法的核心部分是束调整。由于并行束平差是大型块体的计算瓶颈,因此并行束平差已成为研究的热点。特别是,基于一致性的优化方法被证明是适合这项任务的。我们使用由单个三维(3D)点的平差(即“三角剖分”或“交集”)导出的协方差信息来扩展它们。这不仅可以得到更好的收敛性,而且避免了对基于一致性的标准方法的惩罚参数的篡改。相应的新方法也可以看作是后方交会/交叉方案的一种变体,在交叉过程中,我们调整与计算机上可用线程数直接相关的多个子块,每个子块包含该块的一小部分相机。我们证明了我们的新方法适用于鲁棒的并行束调整,并与基于基本共识的方法以及最新的束调整并行实现进行了比较,证明了它的能力。GitHub上提供了我们新方法的代码:此https URL
[6]:Fast Local Planning and Mapping in Unknown Off-Road Terrain
标题:未知越野地形的快速局部规划与制图
作者:Timothy Overbye, Srikanth Saripalli
备注:7 pages, 14 figures
链接:https://arxiv.org/abs/1910.08521
摘要:本文提出了一种在未知、越野、环境下快速、在线的地图绘制和规划解决方案。将障碍物检测与地形梯度图相结合,形成简单、适应性强的代价图。这个地图可以在10赫兹下创建和更新。一个a*计划员在地图上找到最佳路径。最后,在控制输入空间上取多个样本,对生成的可行轨迹进行运动学正演模拟。然后,由成本图和接近a*路径确定的最优轨迹被选择并发送到控制器。我们的方法允许在30hz的频率下进行实时操作。我们证明了我们的方法在各种高速越野地形中的有效性。
[7]:Detecting intracranial aneurysm rupture from 3D surfaces using a novel  GraphNet approach
标题:一种新的GraphNet方法检测三维表面颅内动脉瘤破裂
作者:Z. Ma, L. Song, X. Feng, G. Yang, W.Zhu, J. Liu, Y. Zhang, X. Yang, Y. Yin
备注:Submitted to ISBI 2020
链接:https://arxiv.org/abs/1910.08375
摘要:颅内动脉瘤(ia)破裂并导致脑出血,是威胁人类生命的血点。从医学图像中检测ia是否破裂是一个挑战。本文提出了一种新的基于图的神经网络GraphNet,用于从三维表面数据中检测ia破裂。GraphNet是基于图卷积网络(GCN)的,用于图级分类和节点级分割。该网络使用GCN块来提取地表局部特征,并将其集合为全局特征。从临床收集1250例患者资料,其中破裂型385例,未破裂型865例。本文报告了随机抽取的234例受试者资料的表现。实验结果表明,该图在分类任务中的准确度为0.82,接收机工作特性曲线下面积(AUC)为0.82,明显优于不使用基于图的网络的基线方法。该模型的分割输出达到了基于节点平均图的骰子系数(DSC)0.88分。
[8]:OpenDenoising: an Extensible Benchmark for Building Comparative Studies  of Image Denoisers
标题:开放式去噪:构建图像去噪器比较研究的可扩展基准
作者:Florian Lemarchand, Eduardo Fernandes Montesuma, Maxime Pelcat, Erwan Nogues
链接:https://arxiv.org/abs/1910.08328
摘要:由于机器学习,图像去噪技术最近有了一个飞跃。然而,图像去噪器,无论是基于专家的还是基于学习的,大多是在性能良好的生成噪声(通常是高斯噪声)上进行测试,而不是在现实生活中的噪声上进行测试,这使得在现实条件下进行性能比较变得困难。这尤其适用于基于学习的去噪器,其性能取决于训练数据。因此,选择哪种方法用于特定的去噪问题是困难的。本文提出了现有的去噪器的比较研究,以及一个可扩展的开放工具,使其能够重现和扩展研究。MWCNN在实际图像截获噪声的训练中表现出优于其他方法的性能,并且是测试方法中计算量第二低的方法。为了评估结论的稳健性,比较了三个测试集。在噪声类型之间的方法排序中,Kendall的Tau相关性仅为60%,表明需要一个基准测试工具。
[9]:Bilinear Constraint based ADMM for Mixed Poisson-Gaussian Noise Removal
标题:基于双线性约束的混合泊松高斯噪声去除算法
作者:Jie Zhang, Yuping Duan, Yue Lu, Michael K. Ng, Huibin Chang
链接:https://arxiv.org/abs/1910.08206
摘要:为了消除混合泊松高斯(MPG)噪声,本文提出了一种新的全变分正则内卷(TV-IC)模型的算子分裂算法。在现有的TV-IC分裂算法中,对于一个非线性优化子问题,必须采用牛顿法的内环,从而增加了每个外环的计算成本。通过引入一个新的双线性约束,并应用交替方向乘子法(ADMM),该算法的所有子问题BCA(简称基于双线性约束的ADMM算法)和BCAf(简称具有完全分裂形式的BCA变体)都能得到非常有效的解决,特别是对于所提出的BCAf。它们可以在不进行任何内部迭代的情况下进行计算。在温和条件下,研究了该算法的收敛性。数值上,与现有的TV-IC模型的原始对偶算法相比,所提出的算法具有更少的可调谐参数,收敛更快,同时产生可比较的结果。
[10]:An Update on Machine Learning in Neuro-oncology Diagnostics
标题:机器学习在神经肿瘤诊断中的应用
作者:Thomas Booth
备注:arXiv admin note: substantial text overlap witharXiv:1910.07440
链接:https://arxiv.org/abs/1910.08157
摘要:影像学生物标记物用于神经肿瘤的诊断、预后和治疗反应监测。磁共振成像通常用于整个患者路径,因为常规的结构成像提供详细的解剖和病理信息,而先进的技术提供额外的生理细节。在图像特征提取之后,机器学习允许在各种情况下进行精确分类。机器学习也使图像特征重新提取成为可能,尽管脑肿瘤的低发病率使这种方法具有挑战性。许多研究被应用于确定患者首次出现脑肿瘤时的分子结构、组织学肿瘤分级和预后。治疗后,区分治疗反应和治疗后相关效应在临床上很重要,也是一个研究领域。大部分的证据都是在单一的中心,通过回顾性研究获得的。
[11]:Mapper Based Classifier
标题:基于映射器的分类器
作者:Alexander Georges, David Meyer, Jacek Cyranka
备注:12 pages, submitted to IEEE 2019
链接:https://arxiv.org/abs/1910.08103
摘要:拓扑数据分析的目的是从数据中提取拓扑量,它往往关注数据的更广泛的全局结构,而不是局部信息。具体来说,Mapper方法推广了聚类方法来识别重要的全局数学结构,这是许多其他方法无法实现的。提出了一种基于映射器算法的隐空间数据分类器。我们使用主成分分析或自动编码来获得潜在空间。值得注意的是,基于Mapper方法的分类器对任何基于梯度的攻击都是免疫的,并且比传统的CNNs(卷积神经网络)提高了鲁棒性。我们报告了理论证明和一些数值实验,证实了我们的观点。中文来自机器翻译,仅供参考。
扫描二维码
获取更多精彩
arXiv Daily

欢迎关注、转发、点击在看

在线QQ咨询,点这里

QQ咨询

微信服务号