CMU不仅给人类变脸6047acom,宣布腾讯AI

6047acom

6047acom 18

CMU不仅给人类变脸6047acom,宣布腾讯AI

| 0 comments

原标题:视频换脸新境界:CMU不仅给人类变脸,还能给花草、天气变脸 | ECCV
2018

铜灵 发自 凹非寺

允中 发自 凹非寺

晓查 发自 凹非寺

圆栗子 发自 凹非寺

量子位 出品| 公众号 QbitAI

量子位编辑 | 公众号 QbitAI

量子位 报道 | 公众号 QbitAI

6047acom 1

6047acom 2

CycleGAN,一个可以将一张图像的特征迁移到另一张图像的酷算法,此前可以完成马变斑马、冬天变夏天、苹果变桔子等一颗赛艇的效果。

前几天发布的一篇文章中我们曾提到国外的AI捏脸应用FaceApp引发大量关注。它能让人一键变成老人,一键返老还童,一键由男变女,一键破涕为笑,一键失去头发……

6047acom 3

腾讯AI Lab微信公众号今日发布了其第一条消息,宣布腾讯AI
Lab多篇论文入选即将开幕的CVPR、ACL及ICML等顶级会议。

把一段视频里的面部动作,移植到另一段视频的主角脸上。

6047acom 4

福布斯报道说,它在Google Play的下载量已经超过了1亿。

输入一张女性的照片,就能得到果体照,一件脱衣的DeepNude火了。但也因为面临巨大的道德争议,这款软件的开发者选择了将它下架。

在AI科技大本营公众号会话中输入“腾讯”,打包下载腾讯AI
Lab入选CVPR、ACL及ICML的论文。

大家可能已经习惯这样的操作了。

这行被顶会ICCV收录的研究自提出后,就为图形学等领域的技术人员所用,甚至还成为不少艺术家用来创作的工具。

苹果用户也同样热情,App
Annie数据显示,目前在121个国家的iOS商店排名第一。

而且DeepNude本身也不开源,我们只能从开发者零星的介绍中知道,它用到了pix2pix。

腾讯AI实验室授权转载

6047acom 5

6047acom 6

看起来,这是一种神奇的黑科技,但是实际上,揭开神秘的面纱,技术本身并非遥不可及。从GAN的角度来探索解决这类问题,能做到什么样呢?

在巨大的求知欲驱动下,来自四川大学计算机学院在读硕士袁宵在自己的GitHub探究了DeepNude背后原理,研究图像生成和图像修复相关的技术和论文。

1. CVPR

IEEE Conference on Computer Vision and Pattern Recognition

IEEE国际计算机视觉与模式识别会议

7月21日 – 26日 | 美国夏威夷

CVPR是近十年来计算机视觉领域全球最有影响力、内容最全面的顶级学术会议,由全球最大的非营利性专业技术学会IEEE(电气和电子工程师协会)主办。2017谷歌学术指标(Google
Scholar)按论文引用率排名,
CVPR位列计算机视觉领域榜首。今年CVPR审核了2620篇文章,最终收录783篇,录取率29%,口头报告录取率仅2.65%。

腾讯AI
Lab计算机视觉总监刘威博士介绍到,“CVPR的口头报告一般是当年最前沿的研究课题,在学界和工业界都影响很大,每年都集齐如斯坦福大学和谷歌等全球最知名高校和科技公司。”

腾讯AI Lab六篇论文入选CVPR

论文一:Real Time Neural Style Transfer for Videos

本文用深度前向卷积神经网络探索视频艺术风格的快速迁移,提出了一种全新两帧协同训练机制,能保持视频时域一致性并消除闪烁跳动瑕疵,确保视频风格迁移实时、高质、高效完成。

* 此论文后附详细解析

论文二:WSISA: Making Survival Prediction from Whole Slide
Histopathological Images

论文首次提出一种全尺寸、无标注、基于病理图片的病人生存有效预测方法WSISA,在肺癌和脑癌两类癌症的三个不同数据库上性能均超出基于小块图像方法,有力支持大数据时代的精准个性化医疗。

论文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional
Networks for Image Captioning

针对图像描述生成任务,SCA-CNN基于卷积网络的多层特征来动态生成文本描述,进而建模文本生成过程中空间及通道上的注意力模型。

论文四:Deep Self-Taught Learning for Weakly Supervised Object
Localization

本文提出依靠检测器自身不断改进训练样本质量,不断增强检测器性能的一种全新方法,破解弱监督目标检测问题中训练样本质量低的瓶颈。

论文五:Diverse Image Annotation

本文提出了一种新的自动图像标注目标,即用少量多样性标签表达尽量多的图像信息,该目标充分利用标签之间的语义关系,使得自动标注结果与人类标注更加接近。

论文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object
Structure Estimation from Single and Multiple Images

基于曼哈顿结构与对称信息,文中提出了单张图像三维重建及多张图像Structure
from Motion三维重建的新方法。

CVPR重点论文解析

CVPR选中的六篇文章,我们将重点解析《视频的实时神经风格迁移》(Real-Time
Neural Style Transfer for Videos)[1]这篇颇具创新的文章。

在过去很长一段时间内,业界流行的图像滤镜通常只是对全局颜色属性的调整,比如亮度、色相、饱和度等。在2016年的CVPR,Gatys等人[2]首创性地提出将深度神经网络应用于图像的艺术风格迁移,使得输入图像能够模仿如梵高的星空、莫奈的日出印象等任何类型的艺术风格,效果惊艳。

Gatys等人工作虽然取得了非常好的效果,但是缺点是基于优化,非常耗时;到2016
ECCV时,Johnson等人[3]提出了使用深度前向神经网络替代优化过程,实现了实时的图像风格迁移,修图工具Prisma随之风靡一时。但直接将图像风格迁移的方法应用到视频上,却会使得原本连贯的视频内容在不同帧中转化为不一致的风格,造成视频的闪烁跳动,严重影响观感体验。为了解决闪烁问题,Ruder等人[4]加入了对时域一致性的考虑,提出了一种基于优化的视频艺术滤镜方法,但速度极慢远远达不到实时。

6047acom 7

腾讯AI
Lab科学家使用深度前向卷积神经网络,探索视频艺术风格快速迁移的可能,提出了一种全新的两帧协同训练机制,保持了视频时域一致性,消除了闪烁跳动瑕疵,同时保证视频风格迁移能够实时完成,兼顾了视频风格转换的高质量与高效率。

视频艺术滤镜模型如下图所示。通过损失网络(Loss
Network)计算连续两个输入视频帧之间的损失来训练风格变换网络(Stylizing
Network)。其中空间损失(Spatial
Loss)同时描述了图像的内容损失以及风格损失;时间损失(Temporal
Loss)描述了两个风格变换后的视频帧之间的时间一致性。

6047acom 8

文章相关论文

[1] Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong
Zhu, Zhifeng Li, and Wei Liu. Real-Time Neural Style Transfer for
Videos. CVPR, 2017.

[2] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer
using convolutional neural networks. CVPR, 2016.

[3] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for
real-time style transfer and super-resolution. ECCV, 2016.

[4] M. Ruder, A. Dosovitskiy, and T. Brox. Artistic style transfer for
videos. German Conference on Pattern Recognition, 2016.

就算目标主角并不是人类,大概也算不上精彩。眼睛鼻子嘴,至少零件齐全

也是目前大火的“换脸”技术的老前辈了。

现在,飞桨核心框架Paddle Fluid
v1.5宣布开源了PaddleGAN图像生成库,为用户提供易上手的、一键式可运行的GAN模型。

据他的分析,其实DeepNude只是“站在巨人的肩上”,里面用到的技术都是近两年CV领域的重大研究成果,而且都已经开源。

2. ACL

Meetings of the Association for Computational Linguistics

国际计算机语言协会年会

7月30日 – 8月4日|加拿大温哥华

ACL是计算语言学里最重要的国际会议,今年是第55届。会议涵盖生物医学、认知建模与心理语言学、交互式对话系统、机器翻译等各个领域,今年有194
篇长论文、107 篇短论文、21 个软件演示及 21
篇主题演讲。在2017谷歌学术指标(Google Scholar)按论文引用率排名,
ACL是计算机语言学和自然语言处理领域最高级别国际学术年会。

腾讯AI
Lab副主任俞栋认为,「自然语言的理解、表达、生成和转换一直是自然语言处理的核心问题。近年来有很多新的解决思路和方法。今年的ACL涉及自然语言处理的各方面,尤其在语义解析、语义角色标注、基于语义和语法的自然语言生成、机器翻译和问答系统方向上都有一些有趣的工作。」

腾讯AI
Lab主任张潼介绍到,「ACL早期利用语法和规则分析自然语言,90年代后,随着以LDC(Linguistic
Data
Consortium)为代表的自然语言数据集建立扩充,统计自然语言方法在计算语言学里作用越来越大并成为主流。2000年后随着互联网高速发展及以自然语言为核心的人机交互方式兴起,自然语言研究被赋予极高应用价值。」

腾讯AI Lab三篇文章入选ACL

论文一:Modeling Source Syntax for Neural Machine Translation

本文提出将句法树转化为句法标签序列的轻量级方法,有效将源端句法信息引入神经网络翻译系统,被证实能显著提高翻译效果。

论文二:Chunk-Based Bi-Scale Decoder for Neural Machine Translation

本文引入一个额外组块神经网络层,从组块到词的层次生成译文,帮助实现神经网络翻译系统短语级别的建模,实验表明该方法在多种语言上都能显著提高翻译效果。*
本文作者亦致谢前任职机构

论文三:Deep Pyramid Convolutional Neural Networks for Text
Categorization

文章提出了一种能有效表达文本长距离关系的复杂度词粒度CNN。本文研究了如何加深词粒度CNN对文本进行全局表达,并找到了一种简单网络结构,通过增加网络深度提升准确度,但不过多增加计算量。实验表明15层的DPCNN在六个情感和主题分类任务上达到了目前最佳结果。

那么,怎样的迁移才可走出这个框框,让这个星球上的万物,都有机会领取视频改造的恩泽?

6047acom 9

飞桨(PaddlePaddle)致力于让深度学习技术的创新与应用更简单。生成式对抗网络近年来被广泛应用于无监督学习任务以及生成任务中,通过让两个神经网络相互博弈的方法进行学习,常用于生成以假乱真的图片、影片、三维物体模型等。欢迎大家来体验~

当然,作者本身对这项技术是持批判态度的。

3. ICML

International Conference on Machine Learning

国际机器学习大会

8月6日 – 11日|澳大利亚悉尼

机器学习是人工智能的核心技术,而ICML是机器学习最重要的两个会议之一(另一个是NIPS)。ICML源于1980年在卡内基梅隆大学举办的机器学习研讨会,现由国际机器学习学会(IMLS)主办。2017谷歌学术指标以「机器学习」关键词排名,ICML位列第一。

腾讯AI
Lab主任张潼博士介绍到,「很多经典论文和算法,如CRF,都是在ICML上首次提出的,这个会议涉及机器学习相关的所有研究,包括近年非常热门的深度学习、优化算法、统计模型和图模型等。在早期,ICML更注重实验和应用,而NIPS更注重模型和算法,但近年来两个会议有些趋同。」

腾讯AI Lab四篇文章入选ICML

论文一:Scaling Up Sparse Support Vector Machines by Simultaneous
Feature and Sample Reduction

本文提出了第一个能在模型训练开始前,同时检测和去除稀疏支持向量机中不活跃样本和特征的筛选算法,并从理论和实验中证明其能不损失任何精度地把模型训练效率提升数个量级。

论文二:GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term
Nonsmooth Convex Composite Optimization

本文提出了求解多块非光滑复合凸优化问题的算子分裂新算法,该算法采用Gauss-Seidel迭代以及算子分裂的技巧处理不可分的非光滑正则项,并以实验证实了该算法的有效性。

论文三:Efficient Distributed Learning with Sparsity

本文提出了一个高维大数据中能更有效学习稀疏线性模型的分布式算法。在单个机器训练样本足够多时,该算法只需一轮通信就能学习出统计最优误差模型;即使单个机器样本不足,学习统计最优误差模型的通信代价只随机器数量对数曲线上升,而不依赖于其他条件数。

论文四:Projection-free Distributed Online Learning in Networks

本文提出了去中心化的分布式在线条件梯度算法。该算法将条件梯度的免投影特性推广到分布式在线场景,解决了传统算法需要复杂的投影操作问题,能高效处理去中心化的流式数据。

腾讯AI
Lab于2016年四月成立,专注于机器学习、计算机视觉、语音识别和自然语言理解四个领域「基础研究」,及内容、游戏、社交和平台工具型四大AI「应用探索」。腾讯AI
Lab主任及第一负责人是机器学习和大数据专家张潼博士(详情可点链接),副主任及西雅图实验室负责人是语音识别及深度学习专家俞栋博士。目前团队有50余位AI科学家及200多位应用工程师。

6047acom 10

6047acom 11

6047acom 12

如果你还没学会这项厉害的研究,那这次一定要抓紧上车了。

下面送上真·干货!

原理

按着你想要的节奏开花:中老年表情包利器

现在,TensorFlow开始手把手教你,在TensorFlow 2.0中CycleGAN实现大法。

1.效果实测

DeepNude主要使用了2018年发表的文章《Image Inpainting for Irregular Holes
Using Partial Convolutions》中提出的图像到图像技术。

来自卡耐基梅隆大学的团队,开发了自动变身技巧,不论是花花草草,还是万千气象,都能自如转换。

这个官方教程贴几天内收获了满满人气,获得了Google
AI工程师、哥伦比亚大学数据科学研究所Josh Gordon的推荐,推特上已近600赞。

以下效果均采用百度与哈工大联合开发的STGAN模型在飞桨开源的实现

它可以把简笔画变成色彩丰富的图像,感兴趣的同学可以去Demo网站在浏览器中试玩。

6047acom 13

6047acom 14

6047acom 15

6047acom 16

云,也变得急切了

有国外网友称赞太棒,表示很高兴看到TensorFlow
2.0教程中涵盖了最先进的模型。

6047acom 17

具体来说,DeepNude主要使用了计算机视觉领域的3项技术。

或许是怀着超越大前辈Cycle-GAN(来自朱俊彦团队)
的意味,团队给自家的GAN起了个非常环保的名字,叫Recycle-GAN

这份教程全面详细,想学CycleGAN不能错过这个:

看到标签是“Bald”的变脸照片,是不是很多读者感受到了一种来自骨髓的凉意,大家多保重!

1、图像修复

这位选手,入选了ECCV 2018

详细内容

  1. PaddleGAN支持的模型与任务

即上面提到的文章,这是来自英伟达Guilin Liu等人的团队在2018年发表的研究。

Recycle之道,时间知道

在TensorFlow 2.0中实现CycleGAN,只要7个步骤就可以了。

PaddleGAN图像生成模型库覆盖当前主流的GAN算法,可简单上手各类GAN任务,也方便扩展自己的研究。

当画面被严重涂抹后,模型仍然能够恢复出“原来”的图像,可以说是“毫无PS痕迹”。

Recycle-GAN,是一只无监督学习的AI。

1、设置输入Pipeline

Pix2Pix和CycleGAN采用cityscapes数据集进行风格转换,StarGAN,AttGAN和STGAN采用celeba数据集对图片进行局部或者整体的属性修改。

6047acom 18

相关文章

发表评论

Required fields are marked *.


网站地图xml地图