共筑 AI 开源繁荣生态 | 新一代人工智能院士高峰论坛深度学习框架分论坛成功举办

12 月 20 日,新一代人工智能院士高峰论坛深度学习框架分论坛于深圳成功举办。百度飞桨作为我国首个自主研发、功能丰富、开源开放的产业级深度学习平台,目前已经凝聚了 406 万开发者,创建 47.6 万个模型,服务 15.7 万家企事业单位。飞桨助力开发者快速实现 AI 想法,创新 AI 应用,作为基础平台支撑越来越多行业实现产业智能化升级。


“崇尚技术,鼓励创新”,本次深度学习框架论坛共邀请到 7 位嘉宾,向与会者们分享来自百度飞桨的技术干货。


飞桨:源于产业实践的深度学习开源开放平台


飞桨作为源于产业实践的深度学习开源开放平台,一直不断从产业实践中吸取经验,进行各项性能的极致优化以满足更多的业务落地。百度飞桨主任研发架构师吴志华基于产业级深度学习框架面临的诸多挑战,向大家介绍了飞桨的四大领先技术。


首先在编程模式上,飞桨采用动静统一的方式,构建了开发便捷的深度学习框架。飞桨基于编程逻辑的计算描述,提供给开发者一个比较直观的编程范式,并同时支持静态图和动态图两种模式。在超大规模分布式训练技术上,飞桨目前重点解决了“同生活息息相关的推荐场景下的稀疏大模型”、“图像和自然语言处理下的稠密大模型”两大类。对于比较稀疏的推荐场景,飞桨也在不断解决万亿参数存储、万亿边图存储和高性能通信及训练等诸多挑战。第三个领先技术来自多端多平台部署的高性能推理引擎。飞桨针对推理提供多端多平台的推理部署工具链,从模型准备到模型优化到推理部署,各个环节都有不同的工具组件。飞桨的第四个特点当属其产业级的开源模型库。另外,目前飞桨已经适配了 22 家企业,31 种芯片,飞桨套件更是多次登上 GitHub 创建的榜首。

产业级部署方案,飞桨致力推动产业落地应用


会上,飞桨资深研发工程师 Jason 介绍了飞桨在深度模型应用中的产业级部署方案。在模型准备阶段,开发者可以选择基于飞桨的动态图 API,也可以通过飞桨开源的产业级模型库,或者 X2Paddle 快速迁移其它框架的模型。在部署阶段,目前飞桨提供了包括服务端上的 Paddle Inference 推理引擎,快速服务化部署引擎 Paddle Serving,移动端和边缘端上的部署引擎 Paddle Lite,以及支持在网页前端上部署的 Paddle.js。而除了飞桨自研的全场景部署方案之外,飞桨也开源了 Paddle2ONNX,支持飞桨模型保存为开源的神经网络交换格式 ONNX,可以满足用户更灵活的部署需求。



在讲解完飞桨在各场景下产业级的部署方案后,Jason 还分享了飞桨在无人巡检场景落地的产业案例。他表示,飞桨目前已在多个产业领域得到应用,欢迎大家携手飞桨,共创中国 AI 未来。

知识增强大模型,文心升级再赋能


“大规模预训练技术旨在通过海量数据进行自监督训练,使用统一的模型和方法解决所有任务。该技术打破了传统方法对于大规模标注数据的依赖,显著降低了人工智能的应用门槛。”百度资深研发工程师 Shawn 这样说道。



今年 12 月,全球首个知识增强千亿大模型——鹏城-百度·文心(模型版本号:ERNIE 3.0 Titan)正式发布。从 2019 年 3 月发布 ERNIE 1.0,到最新的产业级知识增强大模型文心全景图,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台。ERNIE3.0 的创新点是知识增强,将 NLU 和 NLG 进行有机整合等。另外,ERNIE3.0 还针对模型的框架进行了优化,利用 4D 混合并行技术,缩短了模型的收敛时间。Shawn 强调道,现在的文心除了在百度搜索、好看视频、百度地图、小度音响等内部产品应用外,还在持续赋能包括保险、金融、医疗、人力资源在内的各行各业。

实践应用,不断升级的飞桨高性能强化学习框架


百度资深研发工程师周波介绍了飞桨强化学习框架的三个特性。一是提供了非常友好的初学者教程;二个是在框架层面做的设计以及算法开源工作。第三个是聚焦到强化学习的并行方向,提供了非常便捷且高效的并行接口。在实际性能上,百度的强化学习框架与其他开源框架对比,性能和收敛效果都更好。



“我们已经在飞桨算法库里做了很多算法,相关的算法也经过了内部测试团队在多个测试基准做了评估。我们开源的算法在最终效果上领先于主流的算法库,有 70%多的指标比它们更好。”周波说道。

多方位聚焦发力,OpenCV 未来可期


会上,OpenCV 中国团队负责人于仕琪向大家介绍了 OpenCV 的发展历程。他提到,OpenCV 对深度学习模型的支持是非常好的,非常擅长在嵌入式系统里部署。最近几年 OpenCV 的变化,体现在它的运营变得更加国际化、社区化。



OpenCV 的未来是什么?于仕琪答道,作为一个有 21 年历史的老库,OpenCV 不仅在边缘计算方面要发力,深度学习上要提升,更要对 Licence 有所关注。OpenCV4、4.5 和 5.0,在边缘端和 ARM 的提速上不断加入了很多新功能,后面 OpenCV 在部署上也会更加有优势。中国在 OpenCV 用户数量里排第一,但中国的贡献量排名却不是第一。针对这点,于仕琪表示:“希望在我们的共同努力下,使得中国对 OpenCV 的贡献也达到世界第一。”

持续发展,飞桨图神经网络的框架与实践


图是描述复杂世界的通用语言,而图神经网络的发展从 2014 年开始。百度资深研发工程师 Yelrose 谈到,目前基于空间的图卷积算法主要是把图的建模分成两部分:一是怎么建模一个节点,二是怎么建模整张图。PGL 2.2 按照消息传递的思路设计 API 接口。在编程算法上,它支持消息传递接口,包括不同的池化接口、采样接口,方便用户做图神经网络的研发。另外,PGL 上还有一些模型仓库,让用户快速实现已有算法,真正做到推荐系统、搜索引擎、金融风控等场景的应用落地。



传统机器学习有一个数据是相互独立的假设,数据没有相互关联,但在图网络场景,样本之间有相互关联的关系。这些关系怎么充分利用上,是图网络的关键。飞桨图神经网络 PGL 的应用落地很多,例如百度 APP 和贴吧等推荐系统场景,搜索引擎内的语义索引算法,甚至是百度地图的流量预测和兴趣点检索。

开源赋能,来自飞桨的产业级模型库


飞桨高级技术经理赖宝华分享了飞桨产业级模型库产生的背景,作为一个 AI 应用开发者经常遇到这些问题——应该去哪里找模型,另外模型很多,模型应该怎么选,选哪种?很多模型只追求算法精度,不一定适用产业场景,此外模型优化和部署时可能遇到一系列问题。飞桨产业模型库的目标就是希望解决用户这三大难题。



飞桨产业级模型库中包含了业界经典、前沿以及百度自研的一系列在产业实际场景中充分验证的模型,覆盖语音、图像、自然语言处理、强化学习、图神经网络等多个方向,超过 400 种模型算法。针对产业场景,从数据准备到模型训练到最终上线部署做了全流程的打通。针对用户模型优化以及产业化落地需求,飞桨推出训推一体认证以及端到端开发套件。在设计理念和架构上,每个开发套件都提供全流程支持、模块配置化以及提供丰富的案例、示例代码和文档。此外还可以通过飞桨产业实践范例库中场景快速尝试及实现业务快速验证。随后详细介绍了飞桨产业级模型库在巡检、安防、互娱、电商等业务场景中的应用。业务场景是复杂多变的,飞桨不定时会开展产业落地赛,并提供技术培训、赋能工具以及奖金,鼓励各行各业开发者加入飞桨开源项目建设和丰富飞桨模型生态,共同推进人工智能繁荣生态。


上一篇:启梦行动再扬帆 | 2021 启智社区优秀项目 & 优秀开发者评选结果重磅揭晓
下一篇:智算未来 | 2021 新一代人工智能院士高峰论坛智算网络分论坛成功举办