国际赛事“收割机”再战权威 :PaddlePaddle 助力百度大脑视觉团队获MOT榜单第一

5月7日,在国际权威的多目标追踪挑战(Multiple Object Tracking Challenge,MOT)的 MOT16 榜单上,百度视觉技术团队超越平安科技、商汤科技、上海交大等众多实力强劲的团队,获得榜单世界第一的好成绩。 MOTA 指标显著提升,超越第二名1.8个点;其中 MOTA 为误检、漏检、ID 交换三个指标综合平均值。

 

2019年上半年,百度视觉技术团队已分别在 CVPR 2019活体、ICME 2019人脸 Keypoint、Widerface 等赛事获得第一。此次 MOT 比赛是百度视觉技术团队又一次夺冠,是在实践“领先且实用的 AI 视觉技术”,同时是视频新领域的又一次突破。

 

MOT 16 评测集排名,百度位居榜首

 

Multiple Object Tracking Challenge 是国际多目标跟踪领域最权威的测评平台,由阿德莱德大学、苏黎世联邦理工学院以及达姆施塔特工业大学联合创办,是世界各大 AI 研究机构必争之地。

 

该平台针对多行人对象在复杂场景下的运动轨迹,来评测算法同时进行检测及追踪的性能,目前主要包含 MOT15、MOT16、MOT17 三个评测集,其中 MOT16 允许参赛队自定义检测器,并对目标检测、特征提取及追踪等多模块的综合效果进行测评,因此更具有挑战性和实用性。

 

此次,百度视觉技术团队正是在 MOT16 评测集中勇夺桂冠,超越来自平安科技、商汤科技、海康威视、腾讯优图、NEC 北美研究院、上海交大、斯坦福大学等多支实力强劲的世界知名公司团队高校,技术实力不容小觑。

 

在检测、重识别、多目标追踪等相关算法上,百度视觉技术团队做了诸多创新和改进。

 

检测部分,基于百度自主研发的开源深度学习平台 PaddlePaddle,选择更强大的分类底座网络并使用多尺度特征提取、改善物体模板以提升对微小目标的召回能力、并利用级联网络结构对目标框进行更精细的回归;行人重识别部分,采用自研的基于多样例注意力方法,能够进一步挖掘样本在“困难区域”的细粒度特征,从而提高相似样本在特征空间的可区分性;追踪部分,采用基于行人重识别的序列特征相似度模型进行目标轨迹匹配、并利用时空特征来降低密集多目标跟踪的轨迹交换问题。

 

除此之外,深度学习平台 PaddlePaddle 也是视觉技术团队披荆斩棘的利器之一。PaddlePaddle 是集深度学习核心框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台,而且 PaddlePaddle 在视觉技术上有深厚的积累,官方已开源覆盖分类、检测、语义分割、OCR、GAN、人体关键点检测等类别,基于真实业务场景验证的优质模型。

 

上个月,PaddlePaddle 联合视觉技术团队重磅发布了视频识别工具集,覆盖主流实用的序列建模算法与端到端视频识别模型,可一键式任务启动,公开数据集下载、数据预处理、模型训练、模型 inference 一步到位。后续将会扩展以解决视频理解、视频编辑、视频生成等一系列视频理解任务。

 

 

PaddlePaddle 还对深度学习模型训练中显存占用及数据处理速度进行专项优化。以语义分割 Deeplabv3+ 为例,针对显存消耗分析与解决、冗余前向计算、GPU CPU 内存交换、使用16位浮点数等等,让开发者可在相同的计算设备上训练更大的模型,还可以在消费级别显卡上完成训练。

 

在数据处理上,优化分布式 IO,增加远程文件系统流式读取能力。GPU 多机多卡同步训练通过增加稀疏通信能力提升带宽不敏感训练能力,在低配网络带宽网络环境下,例如10 G 网络下,同步训练可提速10倍。

 

另外 PaddlePaddle 对单机多设备及多机分布式训练支持也非常友好,相对于单设备训练,用户几乎不用对模型进行任何修改,可以低成本的实现单机多 CPU/GPU 训练;而对于多机分布式训练,也只需要简单的配置即可,使得用户能方便地从模型构建快速过渡到多种环境下的模型运行。

 

从实际应用角度,多目标追踪是视频理解和分析领域的核心技术之一。近年来,随着人工智能技术的不断落地,多目标追踪在城市安防、客流分析、智慧零售、文体直播等多项重要应用场景(尤其是 AI to B 场景)发挥出日益重要的作用。

 

基于对多目标追踪技术的重视,百度视觉技术团队已在此方向积累百万量级的检测、重识别、追踪训练数据;多项相关开放服务,如人体检测、人体追踪、人体属性识别、静态/动态人流统计等,已构成完整的 B 端人体分析服务矩阵。对内支持百度智能云、自动驾驶等业务;并通过百度大脑 AI 开放平台对外开放,服务各行各业。

 

未来,百度视觉技术团队会继续推进多目标追踪领域的创新性工作,并争取在更多实际应用场景实现落地。

 

视觉技术是百度大脑核心技术能力之一,其领先国际的技术优势为开发者带来了更多创新的机会。此次在 MOT 测评中的夺冠,是百度大脑技术实力的有力证明,也为百度人工智能“巨树”再添硕果。百度视觉技术团队不仅获得多项国际赛事的第一名,还在 CVPR、ICCV、ECCV、AAAI 等多项计算机视觉顶会上发表文章。

 

百度大脑是百度 AI 技术多年积累和业务实践的集大成,除了视觉技术领跑国际,在深度学习领域也频频发力。一站式深度学习开发平台 AI Studio 更送出1亿元免费算力,为普通开发者破除算力桎梏。

 

未来,百度大脑将持续秉持 AI 普惠的价值理念,一面在产业实践中不断打磨,超越自我勇攀高峰,一面高瞻远瞩、开山辟路,为开发者建立完善的 AI 生态环境,以技术改变生活、服务社会,为推动人类的文明与发展贡献自己的 AI 之力。

来源 | 百度AI

上一篇:9大核心特性全新发布,百度大脑智能对话引擎“吹响号角”
下一篇:鹏城实验室支持开发的开源桌面操作系统OPENTHOS通过专家鉴定