国产数据库硬核技术又破纪录?
国产数据库领域有人“破世界纪录”了,创纪录达7.6倍!
最近中国软件网注意到一份数据库前沿技术领域的测试报告——《TuGrpah基于LDBC-SNB的测试报告》。http://ldbcouncil.org/sites/default/files/LDBC_SNB_I_20200726_SF30-100-300_tugraph.pdf
这是国际图数据非盈利组织针对国内的一款图数据库产品发布的一份专业报告,是备受关注的图数据库领域的权威基准测试报告。
就是在这份报告,费马科技用数据证明:他们公司推出的图数据库产品——TuGraph,在严格准守LDBC-SNB规范中的测试中,比LDBC官网目前排名第一的图数据库产品要好得多。
报告结果显示,TuGraph的得分接近或超过5000。这一结果远高于目前LDBC-SNB已经公布的最高纪录(由Virtuoso保持),约为当前纪录的7.6倍。
图1. 审计测试成功的声明页截图(含认证审计员,LDBC SNB任务组主任和费马科技CTO的签名)
数据库一直是我国IT核心技术中内心深处的痛。图数据库是数据库领域非常重要的一个发展方向,也是很多新兴数据库厂商希望能成为独角兽的土壤。正是图数据库、正是这个结果,引起了中国软件网的关注。
关于LDBC与SNB测试
关联数据基准委员会(LDBC,Linked Data Benchmark Council)是由厂商成员、非盈利组织成员、个人成员共同组成的,汇聚了各界图数据领域的学者,共同推进图数据发展。就像TPC(Transaction Processing Performance Council,事务处理性能委员会)是制定商务应用基准程序的标准规范、性能和价格度量,并管理测试结果发布的机构。LDBC是图(Graph)和RDF数据管理的基准指南制定者与测试结果发布机构。
社交网路基准(SNB,Social Network Benchmark)是关联数据基准委员会(LDBC)发布的基准测试程序之一。它通过两个典型场景来评价图数据库。这两个场景分别是:
•交互场景(interactive), 事务查询任务(transaction query workload),类似OLTP。
•商务智能场景(business intelligence),统计查询任务(analytical query workload) ,类似OLAP。
目前,LDBC-SNB Benchmark(http://ldbcouncil.org/benchmarks/snb)是数据库业界权威的衡量图数据库和图数据管理系统的重要参照标准。LDBC采用开源的做法,遵循GPLv3。它的基准(Benchmark)标准文档,评估基准要用到软件和工具的源码,以及问题跟踪、技术文档都发布在开源网站上。
关于测试过程
费马科技从测试环境准备,测试数据生成和导入,测试例程序(Plugins)的安装和执行,以及结果正确性的验证,整个过程由LDBC指定的第三方在亚马逊公有云上进行,过程中所使用的所有程序和脚本都是公开的,并且整个测试流程由第三方人员完成,保证测试过程的公正、公平、公开。测试结果和测试代码需交由LDBC执行委员会审核通过。
测试的目标包括图数据的数据加载速度,数据存储规模,功能正确性和性能指标。本次测试,费马科技用LDBC的数据生成工具(datagen)生成了SF30,SF100,SF300三个大小不同的数据集,分别代表大小为30G,100G和300G的社交网络数据,充分反映数据库在不同数据规模下的表现的稳定性。
下表列出了交互场景的测试结果,其中的吞吐率(OPS)的意思是每秒完成的操作次数。
表1. 不同数据规模SF30(30GB),SF100(100GB)和SF300(300GB)的测试结果
上表是交互场景(interactive)的测试结果,每项持续时间超过两个小时,操作数达到数千万,而TuGraph在保证100%的查询及时率的前提下,吞吐率达到5000上下,实属不易。这里的查询及时率指的是每一个查询结果均能在给定的延迟要求里返回,院高于标准要求的95%,展现了TuGraph稳定的运行效率。就吞吐率而言,TuGraph为当前纪录的7.6倍,这在商业数据库中非常难能可贵。
关于图数据库
TuGraph的主要贡献者之一、费马科技CTO朱晓伟是清华大学图数据库研究方向的博士。在朱晓伟看来,这是值得骄傲的成绩。这表明费马科技在数据库发展的最新前沿——图数据库方面走在了世界前列,将国内自主研发的技术,推向了世界。
更重要的是,正是有这样突出的性能表现,费马图数据库产品和技术为客户创造了真正的价值,帮助客户解决了一些长期以来难以着手的问题。
陈亮是沅启融安的CTO。沅启融安是一家专注于从事风险控制领域的专业咨询与技术服务公司,他们的主营业务是为大型银行风险管理部提供深度服务。
他向中国软件网介绍了一个用图数据解决的金融风控场景——信用卡等银行个人信贷团伙诈骗。
诈骗团伙会用非法渠道获取的大量身份证向银行提出信用卡申请。这些身份证所代表的人员信息银行系统并不全部掌握,以致部分有潜在风险的申请会被银行通过。诈骗者将通过的部分进行提现或消费,但不还款。一旦出现这种情况,该项消费大概率会成为银行的坏账。
为此,银行的风险管理部门一直希望能有一项技术,在信用卡申请时,就能从申请时提交的相关信息中发现蛛丝马迹,将这些具有诈骗意图的人识别出来。
传统基于关系型数据库的分析方法一直没有很好地解决这个问题。因为传统数据分析方法涉及的数量太大,算法也比较复杂,因此分析所需要的时间太长,无法在信用卡申请的时限内完成分析。
为此,陈亮他们和费马科技一起,为银行提供了一种特别有效的解决方案——基于图数据库和图计算平台进行分析。
通过建立图数据库,并对图数据库进行相应的计算分析,可以对信用卡申请人的电话号码、地址等信息进行关联和聚类分析。根据这些相关性,银行可以从中会发现一些具有团伙性质的蛛丝马迹。
相比传统的数据分析方法,他们的系统效率提升了60倍,从原来的需要10个时到现在只用10分钟解决,可用性大大增强。
关于图数据库未来市场
业界普遍认为,对于图数据库和计算技术的研究,最早可追溯至20世纪四五十年代。但图数据库、图计算逐渐进入人们视野,则是因2010年谷歌发布的一篇图计算论文引起。随着数字经济的迅速发展,目前图数据库已进入临近爆发的前夜。
在这个全媒体社交、万物互联的时代,具有很多的应用场景。例如,在金融领域,可用图数据库通过建立账户(客户)的关系图,根据其社会关系、交易情况,分析客户的还款能力、还款意愿、抗风险能力等,提升金融行业小贷授信、信贷审核、贷后追踪等风控能力,并根据资金交易图谱实现反洗钱、反欺诈等系统。在社交领域,人与人在线上和线下的联系天然形成了一张图,汇集海量的关系数据后,能够做社区发现、舆论追踪、用户推荐等应用;在电信领域,人与人的通信是一个非常强的联系,通信的时间和频率则代表了这种联系的强弱。电信运营商在通信图上进行拓展骚扰电话阻断、经营分析等业务……
根据Gartner研究报告,2019~2022年,图数据库市场将会以每年100%的增长率增长;而在过去的2018年,图数据库市场大概是5亿美元,到2022年保守估计至少80亿美元。
图中可知,从2013年1月起至2020年8月,图数据库的发展一直属于急速上升的模式。可得,越来越多的人开始关注图数据库。数据来源:https://db-engines.com/en/ranking_categories
当前,越来越多的应用场景需要在海量异构数据中提出复杂问题,使用现有的数据库(比如关系型数据库)实现相关分析是不切实际、甚至完全不可能的。而图数据存储可以跨越数据孤岛、并有效地建模、探索和查询数据,能非常方便地解决这类问题。因此,图数据库的需求将会越来越多,但是目前拥有相关专业技能人才缺乏的限制了其采用。
关于图数据库竞争
看上去的诱人前景,吸引了很多厂商杀入到图数据库市场。尤其是近几年,新兴厂商开始增多。
中国软件网调查发现,当前图数据库领域主要有两类提供商:一类是开源软件,一类是新兴公司,还有一些巨头推出的产品。
从当前的竞争态势来看,目前处于刚起步的阶段,还没有形成稳定的竞争格局。
但从业界口碑来看,已初步显露出三大梯队的态势。
处在第一梯队的是Neo4j和费马科技等新兴公司。其中Neo4j是开源软件,它当前应用最广泛。费马科技成立时间相对较晚,但技术上更先进。
第二梯队的主要由JanusGraph等开源项目,以及Virtuoso等公司。这些公司往往都和图数据库领域知名的开源项目Titan相关。好多国内外有图数据库产品的公司,最早的代码都是源自于Titan。
第三梯队的主要是一些巨头推出的产品,以及一些初创公司。例如,百度、腾讯云、阿里云、华为、AWS等都有相关产品。这些巨头或基于开源、或收购,或自己研发推出了一些产品,但基本上都属于探索期,现在还没有真正大规模投入。
国内知名的数据库厂商南大通用副总裁杜国旺在授受中国软件网采访时说,他非常看好图数据库市场的前景。他认为,无论是图数据库厂商,还是依托图数据库提供知识图谱等增值服务的厂商,都大有发展前途,完全有可能产生独角兽。
不过,也有业内人士对图数据库的前景不那么看好。例如,国内大数据领域的知名专家、柏睿数据创始人刘睿民就告诉中国软件网,他不那么看好图数据库的市场潜力。他认为,图数据库的应用场景目前比较窄,有一定的市场空间,关系型数据库仍然会占主导地位。
不过,记者发现,不管未来市场容量有多大,图数据库都引起了国产数据库厂商的深厚兴趣,并开始了大量的探索与实践。
费马科技在产品技术上的突破,让我们看到了国产品牌在数据库领域核心技术的希望。
来源:中国软件网 作者:曹开彬