为什么图 DB + AI 可能是数据管理的未来

2023-06-01 0 473

为什么图 DB + AI 可能是数据管理的未来

图形分析数据库被描述为体现了与 AI 相关的下一代数据存储,而这正是创新的全部意义所在:事物运作方式的全新改进版本。

图数据库中的所有数据节点都是连接的。 这些数据库使用图结构进行语义查询,并使用节点、边和属性来表示和存储数据。 该系统的一个关键概念是图表本身,它提前将信息与主题或主题联系起来,从而大大减少查询者花费的时间。

图数据库现在被用于越来越多的用例。 人工智能被许多人视为“新电力”,是我们每天都在使用和依赖的东西; 图表使之成为可能。 我们在每次网络搜索中都使用 PageRank 算法,并且我们依靠社区检测算法来发现欺诈和洗钱团伙; 图表使那些。 同时,相似性匹配算法可以识别需要紧急帮助的医疗保健患者或准备购买的金融服务、零售和电子商务客户。 图是处理这些任务的理想选择。

图算法是下一代人工智能和机器学习的驱动力,它们将为更多行业和用例提供动力。 为此,总部位于加利福尼亚州雷德伍德城的图形分析提供商 TigerGraph 已聘请该领域的思想领袖、加州大学圣地亚哥分校的数据科学教授 Alin Deutsche 博士担任首席科学家。 他很早就认识到图分析的价值,并已成为该领域的世界顶级专家之一。

这是根据最近的采访与 Deutsch 博士进行的问答。

问:图分析可以做什么其他技术无法做到的?

A:嗯,图表特别擅长让用户思考、发现和了解数据项之间的联系。 这就是重点; 这些联系是一等公民。 图是几个世纪以来已知的数学对象,由节点和边组成。 节点代表我们希望建模的现实生活中的对象。 边就是他们之间的关系; 例如,当我在 Twitter 上关注你,或者我们在 Facebook 上是朋友时,等等。关系标准表格数据模型不会将这些项目之间的联系视为一等公民。 在您运行分析时,必须通过非常昂贵的计算来推断它们。 在图中,这种联系是具体化的,你只需使用它从一个人跳到他们的朋友(在社交网络上)。 这使得以表格实现无法比拟的性能在大量数据上跨多个此类跃点或连接执行遍历成为可能。

问:为什么图形分析被认为是记录数据的未来趋势?

答:我们一直认为数据是相互关联的。 我们总是对数据点相互关联的方式感兴趣。 只是之前我们受制于表格思维,只能看那么远,从一个连接跳到另一个连接,但我们一直想看看这些连接。 现在,终于出现了一种技术,专门用于在物体之间的距离上找到这些连接。 这就是您的移动方式,当您开始看到不明显的连接时,您对数据最有趣的见解是如何产生的——这意味着它们必须在图形设置中。 (这些是)图中的节点,它们可以通过彼此之间的长跳链到达。 而这正是新的机器学习算法和粗略分析任务大放异彩的地方,因为它们可以利用图形提供的这种复杂而深入的连接信息。

在 SQL 主导的世界中获得更多吸引力
问:随着我们现在创建和存储的数据量激增,传统数据库开始发挥最大作用,您如何看待图形分析在数据库世界中获得更多关注?

答:首先,图(分析)很小,但在工业部门的采用方面呈指数级增长。 事实上,有趣的文章表明,这是目前增长最快的数据库领域之一。 因此,就增长率而言,它早已超过了标准的经典关系数据库。 如果它保持在这条轨道上,它会很快赶上来。 实际上,在这一点上我不会再说它小了。 它曾经是但现在不是了。

它如何获得更多牵引力? 好吧,正如您在这个问题中指出的那样,信息流在我们身上呈爆炸式增长,我们必须设法快速从中获得洞察力。 如果首先我必须获取分布在不同表格中的数据,并以昂贵的计算步骤将这些表格放在一起,以提取我的洞察力,我将无法实时和大规模地做到这一点,我们无法做到这一点。 正在看。 而这也是将连接视为原生一等公民的图技术完美定位于此的原因,可以帮助我们在同一时间单位内更多地了解数据。 因此,考虑到这些连接,这实际上是我们可以学习和分析多少的吞吐量。

经典技术基本上是一次又一次地计算这些连接,这种计算被称为连接操作。 在您使(数据库)引擎崩溃之前,您只能有这么多的连接。 你投入这个过程的数据越多,你就会越快地让引擎崩溃。

问:在流数据越来越多的趋势中,图将扮演什么角色?

A:会起到同样的作用; 流数据意味着更大的数据量会影响您,因此您接触每个数据项以计算分析以了解您的见解的时间更少。 同样,规模将极其重要。 如果您希望您的见解足够有趣,并了解某些对象通过此图中的非平凡路径连接,那么您将需要利用图形数据库技术的优势。

问:图表如何与分析和机器学习资产一起使用来帮助解决欺诈和网络犯罪案件? 这些是图形分析的关键用例。

答:它是人们通常到处吹捧的杀手级应用程序之一。 并不是说这是唯一的——还有很多。 但这些应用程序的特殊之处在于您需要再次识别连接。 例如,对于欺诈和洗钱计划:有一个账户转账到另一个账户,又从另一个账户转账到另一个账户,依此类推。 在某个时候,您到达了目标账户,这意味着您必须能够沿着复杂的路径跟踪此账户图并在它们之间进行转账。 路径故意变得复杂和冗长,因为这就是欺诈犯罪者试图混淆资金流动方式的方式。

因此,这是沿边跟踪图中节点之间连接的典型示例。 网络犯罪检测/预防也适用; 在刑事程序中有一些小步骤的路径,以便永远不会引起对任何一个步骤的注意,但它们开始累积。 你想找到这个序列,这条路径。 这是在图中查找可达节点的完美示例; 此外,它正在识别这种可达性发生的路径。 例如,查找哪些是第三方启用程序,哪些是已被破坏的服务器以及位于此路径上的某处,等等。 我们遇到的一个例子是这样的:我们想根据某个终端(可能在加油站)已经被破坏以及用户是否可能丢失了他们的信息来实时识别信用卡交易是否可能是欺诈性的。 读取他们的卡数据时的数据。 这是一个“这张卡是否连接到这个受感染的终端?”的问题。 和“这张卡现在连接到新交易了吗?” 因此,我可以推断出这笔交易可能存在欺诈行为吗? 再次连接,连接,连接——归根结底,这正是图形模型和后台数据库可以非常快速地遍历的内容。

图数据库的关键用例
问:对于一些潜在客户来说,哪些涉及图形的用例可能不太明显?

A:当然有很多。 有趣的是,除非您的应用程序真正专注于将数据视为电子表格,否则数据的所有其他用途都是兼容的,并且非常适合图形技术。 只要我有两个电子表格,我就可以将它们连接起来以充分利用图表。 在传统的数据库中,要在这两个电子表格中找到有用的信息,就意味着要在它们之间跳来跳去,并尝试计算并找到哪些是链接; (在图形数据库中)我们已经拥有所有这些链接,并且无需计算即可有效存储它们。 因此,这意味着任何具有任何联系的有趣数据,我们传统上在企业应用程序中使用关系样式已有 40 年,已经非常适合图形技术。

人们在大规模数据操作中所做的一切实际上都是将从图形技术中受益的完美示例。 例如,在医疗保健领域,有一个病人的 360 度全景视图,包括所有就诊、所有错过的约会、所有保险索赔。 这些都是有联系的。 例如,我们确定的一个用例是那些错过了重要且有影响的约会的客户或患者; 他们需要收到明信片或约会提醒。 我们已经看到在这个特定领域的努力,以确定最有效率的提供者,那些以最低的保险索赔价值获得最积极结果的提供者。 这些又是我们所有这些交易之间有趣的联系,这些交易涉及谁治疗谁、何时治疗、花费多少等。

供应链管理应用程序是另一个例子。 同样,这一切都与最终的一件事有关——原材料需要一直成为成品,而在此之前,它们要经过许多阶段,每个阶段都与下一个阶段相关联。 你必须找到解决这个问题的方法。 例如,当特定仓库遭到破坏时会发生什么。 欧洲的洪水影响了供应链; 我们怎样才能找到另一条路呢? 等等。 通过流程进行寻路通常是图形所促进的。

问:图形和图形查询语言 GQL 的出现将如何帮助企业走上更标准化系统的道路? 你预见到未来会出现这种情况吗?

答:是的,GQL 已经投入使用大约五年了。 标准委员会中有不少行业参与者。 这是一件大事,因为它是大约 40 年来第一个由 ISO(国际标准化组织)国际标准办公室及其美国同行 ANSI(美国国家标准协会)标准化的新语言。 自 SQL 以来,出现了所有这些其他数据模型:XML、JSON 等等。 它们都附带了一些查询语言,但都没有被这个行业最高标准机构标准化。 因此,他们开始标准化过程这一事实表明图形查询在工业上变得多么重要。

问:那么,您认为这是几年之后的事情吗?

A:实际上,TigerGraph 是那里的主要贡献者之一,所以我们非常积极地参与其中。 到今年年底,我们预计会出台所谓的指导标准,这将是一个预览,这样整个行业就可以形成一个概念。 它不会完成,但会足够结晶,之后不会有太多惊喜。 所以我们还要再谈几年,直到它正式发布。

GQL 将如何与 SQL 竞争?
问:为什么您认为 GQL 是比 SQL 更好的长期技术? SQL无处不在,往往需要企业和开发人员很长时间才能切换。

A:这是一个非常非常有见地的问题。 让我首先区分查询语言本身,在本例中是 GQL,它将成为标准,以及底层技术,它是运行以查询语言表达的特定分析任务的引擎。 正如我所说,数据是连接的; 每个有趣的数据点都是相连的。 每个有趣的应用程序都试图指定导航以及这些连接; GQL 旨在以一种非常用户友好的方式简洁地指定连接链的遍历。 此外,它有助于指定遍历,在这些遍历中您事先不知道在找到所需数据之前必须执行多少步。

例如,在欺诈用例中,欺诈目的地是钱去的地方,但你不知道它在哪里。 是一次转移、两次转移还是多次转移? 图查询语言特别擅长说:“我不在乎;想走多远就走多远,直到找到目的地。” SQL 是一种查询语言,它只能告诉您:“好吧,将两个表与三个表连接起来,我需要四个表”,但它很难解释您想要执行未确定长度的级联连接。 这意味着它会自动限制您从图表中的特定点开始探索分支的程度。

这就是语言部分。 现在,另一部分是底层技术。 原则上,可以采用像 GQL 这样的图形查询语言,并使用一些编程将其转换为可以在 SQL 标准边缘上运行的 SQL 查询。 但这意味着不利用这个问题的结构,即图形的知识,图形可以以特别有益的方式存储以进行高性能评估的事实。 这就是为什么应用程序肯定会要求将本机图形数据库应用于某些问题。

我们在这里不是在谈论取代关系技术。 我们一直在谈论关系数据库和图数据库技术的共存,而在这种共存的过程中,将会有一场边界划定在何处的较量。 陪审团还在外面。 我个人将其视为图形数据库从其利基市场开始的情况,最初着眼于社交网络类型的数据。 现在我们已经意识到万物皆网络,我们开始越来越广泛地应用它,我们将看到这两种技术之间多年的较量。 我不确定一个会取代另一个,但也无法杀死另一个。

问:我们谈到了很多关键点。 你认为我们在这次谈话中遗漏了什么我们需要谈论的吗?

答:您整理了一份非常非常翔实且经过深思熟虑的问题清单。 因此,首先,正如我提到的,TigerGraph 是标准开发的主要贡献者之一。 这是对其现有查询语言和理念以及技术领域的认可。 让我指出,它通过各种技术优势脱颖而出,我们实际上已经在计算机协会旗下的名为 ACM SIGMOD 的旗舰数据库会议上发表了。 这个数据管理方面的特殊兴趣小组是即将召开的数据库会议,在过去的两年里,我们在那里发表了两篇论文; 这是社区对我们工作的重视程度的标志,因为在这个论坛上出版竞争非常激烈。

在 2020 年的论文中,我们对图中找到的所有数据提出了一种计算聚合的新观点,我们以一种革命性的方式实现了这一点,结果证明它比旧的 SQL 风格要好得多。 那是一张纸。 第二篇论文讨论了我们如何使用我们的图的并行计算引擎,通过将它们转换为图上的查询来加速经典的 SQL 查询; 这是我提到的两种技术之间正在进行的斗争的一部分。

此外,我想指出,我们 (TigerGraph) 也有我们自己开发的查询语言,严格来说,它比即将推出的 GQL 标准更具表现力。 像往常一样,当几家公司聚在一起时会发生什么,在出现的标准中会有妥协。 我们当然影响了标准的制定过程,但是对于我们公司特有的一些想法和原语,当然,其他公司反对必须实施这些标准。 因此,出于这个原因,我们拥有额外的计算能力和表达能力,一方面,这使我们能够轻松地通过将 GQL 标准查询翻译成我们自己的本土语言来轻松地符合标准。 此外,由于 TigerGraph 的语言具有很强的表现力,它用于实现我们提供给开发人员使用的算法库。 每当用户希望使用新算法扩展该库或自定义现有算法时,他们所需要做的只是添加/修改几行代码,而不是使用具有数百行代码的非常低级的编程语言,然后 根据您的需要调整某些东西变得非常耗时来完成和维护。

最后,我们设计的这种查询语言背后的理念是为我们认为最有潜力的采用者社区提供一个非常顺畅的入口,该社区由 SQL 开发人员组成。 也有不懂 SQL 的数据科学家跳上了图的潮流,但与想要超越的经验丰富的 SQL 程序员的数量相比,他们的数量相形见绌。 在这里,我们通过围绕 SQL 的最小扩展概念设计语言而脱颖而出,以便您现在可以表达图形分析并保持这种图形哲学。 由于我们的努力,这种 SQL 风格现在已被认为在标准中更为重要。 因此,将有两种方式来按照标准编写查询,两者都是一致的; 一个将受 SQL 启发。 另一个将受图形启发。 这种受 SQL 启发的风格将可用,这是我们对标准的贡献。

我们确定了 SQL 查询和图形查询之间的共同元素,并以此为基础进行构建,这样从未查询过图形数据的人就可以轻松坐下来,从一开始就发出一些简单的查询来开始获取 关于图形的想法。 图(分析)的入门门槛会低得多。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 为什么图 DB + AI 可能是数据管理的未来 https://www.7claw.com/57156.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务