数据是AI时代的燃料。7月4日,百度AI开发者大会(Baidu Create 2018)在北京召开。百度大脑论坛上,百度大数据部高级总监郭谢介绍了基于百度大数据技术的产品生态圈,并发布大数据众智开放平台“点石”(dianshi.baidu.com),提升数据处理效率,赋能数据融合安全。
人类正处于数据爆发式增长的时代,每天都有海量数据被产生出来。郭谢表示,在这样的行业背景下,通过数据语义化挖掘其中蕴含的价值,成为众多行业的普遍需求,而发掘数据价值,需要数据科学和数据工程两大核心能力。
百度在数据工程和数据科学上拥有深厚的积累。数据工程方面,百度处于业界领先水平。百度大规模实时数据仓库可以实现100M/秒单节点加载速度,从而提升数据分析效率。通过预聚合存储引擎,实现查询效率数量级提升;大规模分析/事务混合处理技术,在10节点的集群规模下,并发事务处理能力可以实现每秒10万次事务;在高性能KV服务方向,百度的系统实现了高并发和超低延时,在100节点的集成规模下可以支持300万QPS,同时支持多地写入和异地多活,具有非常强的鲁棒性。数据科学方面,百度借助在内部长期运用和持续优化多年的数据科学技术,并结合行业业务场景,应用效果显著。
去年11月的百度世界大会上,百度正式发布数据智能平台,基于全球领先的百度人工智能技术,提供数据分析及展现、数据治理、数据应用等产品与服务,并推出成熟、专业的数据智能行业场景解决方案,为行业赋能。郭谢表示,随着大数据产品技术栈的日趋完善,百度能为客户赋能的场景也将越来越多。
郭谢提出,要促进大数据产业发展,需要从大数据产业特性出发,抓住生产资料和生产工具两个要点,保证安全高效地处理数据资产。在大数据处理中,生产资料是各种来源的数据,生产工具则是对数据进行处理的工具和技术,在多方数据融合计算下,同时在不同机构之间辅助建模,通过数据融合实现生产资料的升级。
为帮助开发者低门槛、高效率地获取数据价值,百度构建起一站式大数据处理平台,实现数据集中管理、权限控制、资源调度。同时,为解决数据安全问题,该平台还提供了可信计算环境。郭谢介绍,该平台提供易用的云端Jupyter开发环境,开发者可以很方便地通过终端执行各种数据处理任务。同时,平台也无缝集成了百度世界领先的AI能力,提供丰富的算法库、语音、图像等各种AI服务,以及百度深度学习框架PaddlePaddle。利用这些能力,开发者可以高效地进行大数据建模相关的应用开发。
而这些能力,百度将通过大数据众智开放平台“点石”开放,赋能更多开发者。现场,郭谢正式宣布了“点石”大数据众智开放平台的发布,从应用实践、开发工具和可信数据计算三个层面,帮助更多开发者深度挖掘数据价值,同时全方位保障数据安全。
据悉,“点石”开放平台将长期举行大数据比赛,并为参赛者提供各种大数据工具组件、模型算法库等,让参赛者能够专注于赛题本身。郭谢也再次向全国的大数据团队发出参赛邀请,希望有更多的伙伴参与到大数据行业,和百度一起为数据生态赋能,携手共创未来。