毕业论文
您现在的位置: 框架 >> 框架介绍 >> 正文 >> 正文

封装30多种图嵌入方法谷歌等发布图机器

来源:框架 时间:2023/7/25
北京哪些医院白癜风最权威 http://m.39.net/pf/bdfyy/bdfzj/

作者:InesChami等

编译:安然

图灵联邦编辑部出品

近日,斯坦福大学、谷歌AI等机构的研究者在一篇论文中提出了一个图机器学习全面分类和统一框架——GraphEDM,该框架包含了浅图嵌入方法、图自动编码器、图正则化方法和图神经网络,以期为图结构化数据的表示学习方法提供一个统一观点,进而更好理解在深度学习模型中利用不同的图结构方法。

他们还引入了图卷积框架(GCF),该框架用于描述和比较基于卷积的图神经网络,包括空间和谱图卷积。根据框架,研究者介绍了图表示学习方法的分类法,封装了三十多种图嵌入方法(半监督和无监督)。

研究者希望这项研究能有助于图表示学习的研究,以期解决模型面临的挑战。也希望其他研究者能够以参考该方法,更好地了解可用的工具和应用程序,并轻松地确定针对给定问题的最佳方法。

此外,有新研究问题的研究人员可以使用该分类法更好地对其研究问题进行分类,参考现有工作,确定要比较的正确基准并找到合适的工具来解决问题。

以下是论文具体介绍:

在过去的十年里,针对特定类型的结构化数据开发了许多成功的模型,包括定义在离散欧几里德域上的数据,(例如,可以通过递归神经网络对诸如文本或视频之类的序列数据进行建模,它可以捕捉序列信息,从而在诸如机器翻译和语音识别的任务上产生高效的表示)。

还有卷积神经网络(convolutionalneuralnetworks,CNNs),它可以根据位移不变性等结构先验参数化神经网络,并在图分类或语音识别等模式识别任务中实现了前所未有的性能。

这些主要的成功仅限于具有简单关系结构的特定类型的数据,在很多情况下,数据并不是规则的:复杂的关系结构通常会出现,并且从该结构中提取信息对于理解对象之间的交互方式至关重要。

图是一种通用数据结构,可以表示复杂的关系数据(由节点和边组成),并且出现在多个领域中,例如社交网络,计算化学,生物学,推荐系统,半监督学习等。

对于图结构的数据来说,将CNNs泛化为图并非易事,定义具有强大结构先验条件的网络是一项挑战,因为图结构可以是任意的,并且可以在不同的图甚至同一图中的不同节点之间发生显著变化。特别是,卷积之类的操作不能直接应用于不规则图域。

例如,在图中,每个像素具有相同的邻域结构,允许在图中的多个位置应用相同的过滤器权重。

图1:欧几里得与非欧几里得图的图解

但是,在图中,由于每个节点可能具有不同的邻域结构(图1),因此无法定义节点的顺序。此外,欧几里得卷积强烈依赖于几何先验(例如,位移不变性),而几何先验不能泛化到非欧几里得域(例如,甚至无法在非欧几里得域上定义平移)。

这些挑战导致了几何深度学习(GDL)研究的发展,该研究旨在将深度学习技术应用于非欧几里得数据。特别是考虑到图在现实世界应用程序中的广泛流行,人们对将机器学习方法应用于图结构数据的兴趣激增。

其中,图表示学习(GRL)方法旨在学习用于图结构数据的低维连续向量表示,也称为嵌入。

从广义上讲,GRL可以分为两类学习问题,非监督GRL和半监督GRL。非监督GRL的目标是学习保持输入图结构的低维欧几里德表示。半监督GRL也学习低维欧几里得表示,但用于特定的下游预测任务,例如节点或图分类。

与非监督设置(输入通常是图结构)不同,监督设置中的输入通常由在图上定义的不同信号组成,通常称为节点特征。

此外,底层离散图域可以是固定的,即直推学习设置(如预测一个大型社交网络中的用户属性),但也可以在归纳学习设置中有所变化(如预测分子属性,每个分子是一个图)。

最后,尽管大多数半监督和无监督的方法都可以在欧几里得向量空间中学习表示形式,但最近人们对非欧几里得表示学习感兴趣,该学习旨在学习非欧几里得嵌入空间(例如双曲或球形空间)。此工作的主要动机是使用一个连续的嵌入空间,该空间类似于它试图嵌入的输入数据的底层离散结构。

鉴于图表示学习领域的快速发展,研究者认为,在一个统一的、可理解的框架中总结和描述所有方法非常重要。其目的是为图结构化数据的表示学习方法提供一个统一观点,以便更好地理解在深度学习模型中利用图结构的不同方法。

目前,已有大量的图表示学习研究。

首先,存在一些涵盖浅层网络嵌入和自动编码技术的研究。

其次,Bronstein等人还广泛概述了非欧几里得数据(例如图或流形)的深度学习模型。

第三,最近的几项研究涵盖了将深度学习应用到图的方法,包括图神经网络。

但是,这些研究大多集中在图表示学习的一个特定子字段上,并且没有在每个子字段之间建立联系。

在该论文中,研究者扩展了Hamilton提出的编码器-解码器框架,并引入了一个通用的框架——GraphEncoderDecoderModel(GRAPHEDM)。

根据该框架,研究者将现有的工作分为四大类:

(1)浅嵌入方法

(2)自动编码方法

(3)图的正则化方法

(4)图的神经网络(GNNs)

此外,研究者还介绍了一个图卷积框架(GCF),专门用于描述基于卷积的GNN,该框架在广泛的应用中实现了最先进的性能。这允许他们分析和比较各种GNN,从GraphFourier1域中操作的方法到将self-attention作为邻域聚合函数的方法,其结构范围很广。

研究者希望近期的工作能够帮助读者深入了解图的各种学习方法,以推理出相似性、差异性,并指出潜在的扩展和局限性。

论文贡献如下:

引入了一个通用框架GRAPHEDM,来描述一系列对图结构数据进行操作的广泛的半监督和无监督的方法,即浅嵌入方法,图正则化方法,图自动编码方法和图神经网络。

该研究是首次尝试从同一角度统一查看这些不同的工作类别,并且研究者提供了一个通用分类法(图2)来理解这些方法之间的差异和相似之处。尤其是该分类法封装了三十多种现有的GRL方法。在全面的分类中描述这些方法可以深入了解这些方法的不同之处。

研究者发布了GRL开源库,其中包括最新的GRL方法和重要的图应用程序,包括节点分类和链接预测。

图2:图表示学习方法的分类。根据在编码网络中所使用的信息,将图的嵌入方法分为四类:浅嵌入、图自动编码器、基于图正则化和图神经网络

直面挑战,明确研究方向

虽然图表示学习方法已在节点分类或链接预测任务上达到了最先进的性能,但还有许多挑战未解决。接下来,研究者将讨论图嵌入模型的研究方向和挑战。

评估和基准

本研究涵盖的方法通常使用标准节点分类或链接预测基准进行评估。例如,引用网络经常被用作评估图嵌入方法的基准。

然而,这些小的引用基准有缺点,因为结果可能会根据数据集的分割或训练过程(如早期停止)而发生显著变化。

为了更好地推进图表示学习方法,使用鲁棒的、统一的评估协议,并在小节点分类和链接预测基准之外对这些方法进行评估是非常重要的。最近,这个方向已经取得了一些进展,并提出了使用排行榜的图基准测试。

图学习的公平性

机器学习中出现的公平领域力图确保模型避免了“敏感”特征与模型预测输出之间的相关性。

这些问题对于图数据的学习问题尤其重要,研究者必须考虑图数据结构(边)的相关性,以及节点的特征向量与最终输出的相关性。

向模型添加公平性约束的技术依赖于使用对抗性学习来消除模型的预测相对于敏感特征的偏差,并且可以扩展到图表示学习。

但是,对抗性方法无法为消除的实际偏差提供有力保证。另外,在实践中,许多去偏方法可能对去偏任务无效。

该领域的最新工作旨在为去偏图表示学习提供可证明的保证。

应用于大型和现实中的图

大多数关于图的学习方法只适用于规模不超过数十万个节点的较小的数据集。

然而,现实中的图要大得多,包含数十亿个节点。为大型图缩放需要使用许多机器进行分布式系统设置,比如MapReduce。

假设一个大的图只适合一个硬盘(例如1tb大小),但不适合RAM,那么研究人员如何仅使用个人计算机将学习方法应用到如此大的图上呢?

通过大型图像数据集,将其与计算机视觉任务进行对比。

只要模型可以放在RAM上,无论数据集有多大,都可以在个人计算机上训练此类模型。

这个问题对于图数据嵌入模型具有挑战性,尤其是参数随图数据节点数量变化的模型。

研究者预见了在学习大型图方法时,在工程(Engineering)和数学(Mathematics)方面的挑战,于此同时,仍然可以在一台机器上操作。

研究者希望其他研究人员能够专注于这一方向,将这类学习工具展示给非专业的学习者,例如神经学家希望分析人类大脑的子图,给出它的神经元和突触,存储为节点和边缘。

分子生成

在图学习具有巨大的潜力,可以帮助分子科学家减少实验室的成本和时间。研究人员提出了预测分子量子性质和生成具有某些期望特性的分子的方法。

在一些方法综述中,有一些涉及到具有某些特性(如电导和延展性)的材料的制造,而其他方法则涉及到药物设计。

组合优化

计算困难的问题出现在广泛的领域,包括routingscience、cryptography、decisionmaking和planning。从广义上说,当计算最佳解决方案的算法难以适应问题规模的变化,就很难进行计算。

许多难题(如SAT,顶点覆盖…)可以用图来表示,最近,人们对利用图嵌入来近似求解np难题产生了兴趣。

更具体地说,这些方法从数据驱动的角度处理计算困难的问题,在给定一个问题的多个实例的情况下,任务是预测特定的实例(例如节点)是否属于最优解决方案。

这些方法的一个动机是在GNNs中发现的关系归纳偏差,这使它们能够比标准的神经网络更好地表示图形(例如排列不变性)。

尽管这些数据驱动的方法仍然被现有的解决方案所超越,但有希望的结果表明,GNNs可以推广到更大的问题实例。

非欧几里德嵌入

图嵌入的一个重要方面是底层空间几何。图是离散的,高维的,非欧几里德结构,没有直线入的一个重要方面是底层的空间几何形状。图是离散的,高维,非欧氏结构,并且没有直接的方法将此信息编码到保留图拓扑的低维欧几里得嵌入中。

最近,人们对学习非欧几里德嵌入的兴趣和进展,如双曲或混合积空间嵌入。

与欧几里得嵌入式相比,非欧几里得嵌入为更具表达性的嵌入式提供了希望。例如,双曲嵌入可以表示比欧几里得嵌入失真小得多的层次图。

非欧几里得嵌入产生的两个常见挑战是有限的机器精度和具有挑战性的黎曼优化。

此外,也不清楚如何为给定的输入图形选择正确的几何图形。虽然存在一些图曲率的离散度量,但一个有趣的研究方向是如何为给定的离散图选择或学习正确的几何形状。

理论上,保证图嵌入模型的设计已经有了显著的进步,在许多应用上已经超过了最先进的水平。然而,对于图嵌入模型的理论和局限性的认识还很有限。

理解GNNs的表示能力是一个新兴的研究领域,最近的研究正在将现有的理论成果应用于图表示学习问题。

研究者表示,为了深入理解图嵌入方法的理论和其局限,理论框架的发展至关重要。

论文链接:

转载请注明:http://www.0431gb208.com/sjszlfa/5593.html