柏睿数据新一代极速全场景分析型数据库RapidsDB的技术建构之道

   日期:2024-12-26    作者:ptyis 移动:http://mip.riyuangf.com/mobile/quote/26688.html

  近年来,新一代硬件产品不断蓬勃发展,如多核CPU、GPU、FPGA,以及XPU,如TPU(Tensor Processing Unit,张量处理单元)等。以TPU为例,它可以在硬件层面上处理人工智能和机器学习经常涉及的张量数据结构和张量相关的计算,这大大提高了数据处理和计算的效率。

  内存VS磁盘,从储存到计算、实时分析的巅峰对决

  柏睿数据RapidsDB是基于分布式架构的内存数据库。相较于传统数据库用磁盘存储数据,内存数据库直接在内存上进行数据存储和计算。

  内存数据库避开了数据访问时磁盘的I/O瓶颈,存取速度更快。将内存与磁盘的访问速度对比可知,内存访问速度是纳秒级,而磁盘访问速度是毫秒级,数据处理速度差异高达百万倍。

  内存数据库能够用压缩和优化的格式来存储数据,从而更好地发挥CPU、GPU等现代硬件,而传统的磁盘数据存储则无法实现。

  内存数据库中从内存访问数据所使用的内存更少。这是因为从磁盘上读取数据时会涉及诸多复杂操作和过程,而从内存访问数据的过程指令集较少,所使用的内存也较少。

  相较于基于磁盘架构的传统数据库,RapidsDB在内存优化方面有四大显著特性:

  RapidsDB是一个分布式横向扩展系统,可以在普通硬件上扩展到数千台机器。

  没有缓冲池,不易造成资源争用。

  无锁数据结构,使用内存优化的无锁跳过列表作为其索引,允许高吞吐量的高度并发读写,且读取永远不会被阻止。

  代码生成,无锁的数据结构很快导致动态SQL解释成为限制查询执行的瓶颈, RapidsDB可将SQL向下编译为本机代码,以获得最高性能。

  此外,RapidsDB虽然使用内存作为数据的主要存储模块,但会通过事务日志和定期快照不断地将数据备份到磁盘,这些特性可以从同步持久性(每个事务在完成之前都记录在磁盘上)一直调整到纯内存持久性(最大持续吞吐量)。同时,RapidsDB提供选项来控制性能和持久性之间的权衡,在其最持久的状态下,RapidsDB不会丢失任何一个已确认的事务。

  重塑JOIN,实现更强大的分布式数据库

  人工智能技术,推动计算走向智算

  为进一步提升数据库系统的性能,我们还能如何优化查询计划来更智能地处理数据?想解答这一问题,首先需要了解传统数据库究竟有什么局限。

  尽管每个数据库系统,都有一套自己的优化方式,但是对于传统数据库而言,往往面临一些挑战。传统的数据库通常基于关系代数、系统配置、参数等信息来估测查询的最佳执行计划,但是系统列出的查询计划往往会非常繁杂,且查询计划相似;系统通常采用基于规则和启发式算法的方法评估查询计划成本,以选出性价比最优的查询计划,但这实际上是一个NP难题;此外如果出现临时性宕机等网络问题,传统数据库则不能继续执行操作,这些情况将会导致数据处理效率低、效果不佳。

  虽然对于分布式数据库来说,这些问题依然需要面对,但是RapidsDB能够充分胜任,根据查询运行时收集的统计信息智能优化和调整查询计划,极大地提升了查询执行的高效性、易用性、灵活性和稳定性。

  查询更高效:通过JIT编译技术优化查询计划

  传统数据库已然面临NP难题,对于要考量CPU、I/O、网络等诸多要素的内存分布式数据库来说,如何更好地实现优化查询计划,情况则更为复杂。RapidsDB给出了一个智能解决方案,即基于人工智能和机器学习算法自主研发出的动态查询优化技术。

  查询优化的核心问题之一在于连接排序,尤其是面对多连接查询和大型连接查询场景时。假设一个查询条件要从人员表中选择身份证号和地址数据,看上去信用评分和教育程度两个条件的先后顺序是等价的,但在查询的实际运行过程中会发现,这两个条件执行的先后顺序对不同年龄段的人群来说有很大差别,原始查询的工作条件却检测不到这一点。

  但RapidsDB数据库引擎能够通过动态查询优化技术,根据数据分布特征,预先有效捕获到不同列/表之间的相关性,并自动插入条件语句来完成优化查询计划,从而得到更精确的查询结果;同时也能对查询计划成本进行预先评估,在查询计划的结果准确性一致的情况下,选择最佳的查询计划。

  在遇到突发的网络宕机情况时,分布式数据库上的查询依然能够继续运行,因此RapidsDB动态查询优化技术可以完美的应对这一复杂情况。在运行过程中,RapidsDB能够自动检测到报表的故障问题,并自主动态调整查询计划,以确保系统正常运行。

  基于数据联邦智慧集成构筑数据“群”岛

  基于内存计算、分布式计算、智能技术、数据联邦这四个重点技术方向,柏睿数据构建了具备完全自主知识产权的全内存分布式数据库RapidsDB,助力企业建立实时数据分析与海量数据高效管理平台,目前已在金融、通信、政务、医疗、能源、工业互联网等行业实现了广泛而深入的业务场景落地。

  未来,柏睿数据将携手千行百业的企业机构持续开展数智化转型,助力其构建全域数字能力,全面激活业务数据价值,实现降本增效、业务创新和绿色低碳发展。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号