【浙大周晟团队】NoisyGL针对标签噪声下图NN基准

edwin99
edwin99
2024-10-22 14:01
34 阅读
0 评论
文章封面
目录
正在加载目录...
  • 论文标题:NoisyGL: A Comprehensive Benchmark for Graph Neural Networks under Label Noise

  • 论文地址:https://arxiv.org/pdf/2406.04299

  • 项目地址:https://github.com/eaglelab-zju/NoisyGL


论文核心:

  • 提出了 NoisyGL,第⼀个针对标签噪声下的图神经⽹络的综合基准库。
  • 通过⼤量的实验,针对标签噪声下的图神经⽹络提出了⼀些重要的见解。
  • 为标签噪声下的图神经⽹络提供了⼏点未来的发展⽅向。

 

GNNs通过消息传递机制在节点分类任务中表现出强大的潜力,但是它们的性能往往依赖于⾼质量的节点标签。在现实任务中,由于不可靠的来源或对抗性攻击,准确的节点标签很难获得。因此,标签噪声在现实世界的图数据中很常见。噪声标签会在训练过程中传播错误信息,从而对 GNNs 产生负⾯影响。

 

为了解决这个问题,标签噪声下的图神经网络(GNNs under Label Noise, GLN)的研究最近受到了关注。然而,由于数据集选择、数据划分和预处理技术的差异,社区⽬前缺乏⼀个全面的基准,这阻碍了对 GLN 的深入理解和进⼀步发展。为填补这⼀空⽩,我们在本⽂中介绍了 NoisyGL,这是第⼀个针对标签噪声下图神经网络的全⾯基准。NoisyGL 在各种数据集上,通过统⼀的实验设置和接口,实现了对 GLN 方法的公平比较和详细分析。我们的基准揭示了之前研究中遗漏的几个重要⻅解,相信这些发现对未来的研究将非常有益。同时也希望我们的开源基准库 NoisyGL 能促进该领域的进⼀步发展。

 

考虑⼀个图G={v,e},其中 V 是包含所有 N 个节点的集合,e是边的集合。A是邻接矩阵,X表示节点特征矩阵,特征的维度为 d 。每个节点都有⼀个真实标签,真实标签集合表示为y={y1*,y2*,y3*,...yn*}。

 

要是只关注半监督节点分类问题,其中只有⼀小部分节点vL被分配了⽤于训练过程的标签,这部分标签表示为yL={y1*,y2*,y3*...yl*},其中l是有标签节点的数量。其余的则是无标签节点,表示为vu=v-vL。给定 X 和 A ,节点分类的⽬标是通过最小化L(f0(X,A),yL)来训练⼀个分类器f:(X,A)->Y={y1,y2,...,yN}的向量,其中 c 是类别数量,L是衡量预测标签与真实标签之间差异的损失函数。通常是⼀个设计良好的图神经网络。通过这种方式,根据经验风险最小化(Empirical Risk Minimization, ERM)原则,训练良好的节点分类器可以在未⻅数据VU上实现泛化。

不过在现实世界中可访问的标签可能会受到标签噪声的污染,从而降低的泛化能力。我们将噪声标签表示为yN={y1,y2...yl},yL是其对应的真实标签。

 

考虑两种类型的标签噪声,均匀噪声(Uniform Noise)或对称噪声,对偶噪声(Pair Noise)或对偶翻转、⾮对称噪声。这些噪声模型假设转移概率仅依赖于观察到的标签和真实标签,即与实例特征无关。而在现实世界中,标签噪声可能更加复杂。在这项工作中,我们关注最以上两种常用的噪声类型,将其他噪声类型留给未来的研究。

在每次实验中,我们⾸先根据给定的噪声率和噪声定义⽣成⼀个标签转移概率矩阵。然后,对于每⼀个训练集和验证集中的⼲净标签,我们根据其对应的转移概率从 Categorical distribution 中抽取⼀个噪声标签。这些噪声标签将用于后续的训练过程。

项目选择了 8 个节点分类数据集,这些数据集在不同的图标签噪声研究中被⼴泛使⽤。这些选定的数据集来⾃不同领域,具有不同的特征,使我们能够评估现有⽅法在各种场景中的泛化能力。具体来说,我们使用了三个经典的引⽂⽹络数据集 Cora、Citeseer、Pubmed,以及⼀个作者合作网络数据集 DBLP,还有两个代表性的产品共购网络数据集 Amazon- Computers 和 Amazon-Photo。此外,为了验证各种方法在异质图上的性能,我们使用了两个代表性的社交网络数据集 BlogCatalog 和 Flickr。对于每⼀种数据集,我们为其适配最为常用的训练 - 测试 - 验证集划分方法,以确保对各种方法进行公平比较。
 
项目用了多个 GLN 算法,包括 NRGNN、RTGNN、CP、D-GNN、 RCNGLN、CLNode、PIGNN、UnionNET、CGNN 和 CRGNN;以及⼀组设计良好的 LLN 方法,包括两种损失修正方法 Forward Correction 和 Backward Correction、两种稳健损失函数 APL 和 SCE、两种多网络学习方法 Coteaching 和 JoCoR,以及⼀种噪声适应层方法 S- model。并根据它们的论⽂和源代码严格地复现了所有⽅法。
 

 

 

 

 

评论区 (0)

登录后参与评论

暂无评论,抢沙发吧!