文章详情

论文标题：NoisyGL: A Comprehensive Benchmark for Graph Neural Networks under Label Noise
论文地址：https://arxiv.org/pdf/2406.04299
项目地址：https://github.com/eaglelab-zju/NoisyGL

论文核心：

提出了 NoisyGL，第⼀个针对标签噪声下的图神经⽹络的综合基准库。
通过⼤量的实验，针对标签噪声下的图神经⽹络提出了⼀些重要的见解。
为标签噪声下的图神经⽹络提供了⼏点未来的发展⽅向。

GNNs通过消息传递机制在节点分类任务中表现出强大的潜力，但是它们的性能往往依赖于⾼质量的节点标签。在现实任务中，由于不可靠的来源或对抗性攻击，准确的节点标签很难获得。因此，标签噪声在现实世界的图数据中很常见。噪声标签会在训练过程中传播错误信息，从而对 GNNs 产生负⾯影响。

为了解决这个问题，标签噪声下的图神经网络（GNNs under Label Noise, GLN）的研究最近受到了关注。然而，由于数据集选择、数据划分和预处理技术的差异，社区⽬前缺乏⼀个全面的基准，这阻碍了对 GLN 的深入理解和进⼀步发展。为填补这⼀空⽩，我们在本⽂中介绍了 NoisyGL，这是第⼀个针对标签噪声下图神经网络的全⾯基准。NoisyGL 在各种数据集上，通过统⼀的实验设置和接口，实现了对 GLN 方法的公平比较和详细分析。我们的基准揭示了之前研究中遗漏的几个重要⻅解，相信这些发现对未来的研究将非常有益。同时也希望我们的开源基准库 NoisyGL 能促进该领域的进⼀步发展。

考虑⼀个图G={v,e}，其中 V 是包含所有 N 个节点的集合，e是边的集合。A是邻接矩阵，X表示节点特征矩阵，特征的维度为 d 。每个节点都有⼀个真实标签，真实标签集合表示为y={y1*,y2*,y3*,...yn*}。

要是只关注半监督节点分类问题，其中只有⼀小部分节点vL被分配了⽤于训练过程的标签，这部分标签表示为yL={y1*,y2*,y3*...yl*}，其中l是有标签节点的数量。其余的则是无标签节点，表示为vu=v-vL。给定 X 和 A ，节点分类的⽬标是通过最小化L(f0(X,A),yL)来训练⼀个分类器f:(X,A)->Y={y1,y2,...,yN}的向量，其中 c 是类别数量，L是衡量预测标签与真实标签之间差异的损失函数。通常是⼀个设计良好的图神经网络。通过这种方式，根据经验风险最小化（Empirical Risk Minimization, ERM）原则，训练良好的节点分类器可以在未⻅数据VU上实现泛化。

不过在现实世界中可访问的标签可能会受到标签噪声的污染，从而降低的泛化能力。我们将噪声标签表示为yN={y1,y2...yl}，yL是其对应的真实标签。

考虑两种类型的标签噪声，均匀噪声（Uniform Noise）或对称噪声，对偶噪声（Pair Noise）或对偶翻转、⾮对称噪声。这些噪声模型假设转移概率仅依赖于观察到的标签和真实标签，即与实例特征无关。而在现实世界中，标签噪声可能更加复杂。在这项工作中，我们关注最以上两种常用的噪声类型，将其他噪声类型留给未来的研究。

在每次实验中，我们⾸先根据给定的噪声率和噪声定义⽣成⼀个标签转移概率矩阵。然后，对于每⼀个训练集和验证集中的⼲净标签，我们根据其对应的转移概率从 Categorical distribution 中抽取⼀个噪声标签。这些噪声标签将用于后续的训练过程。

项目选择了 8 个节点分类数据集，这些数据集在不同的图标签噪声研究中被⼴泛使⽤。这些选定的数据集来⾃不同领域，具有不同的特征，使我们能够评估现有⽅法在各种场景中的泛化能力。具体来说，我们使用了三个经典的引⽂⽹络数据集 Cora、Citeseer、Pubmed，以及⼀个作者合作网络数据集 DBLP，还有两个代表性的产品共购网络数据集 Amazon- Computers 和 Amazon-Photo。此外，为了验证各种方法在异质图上的性能，我们使用了两个代表性的社交网络数据集 BlogCatalog 和 Flickr。对于每⼀种数据集，我们为其适配最为常用的训练 - 测试 - 验证集划分方法，以确保对各种方法进行公平比较。

项目用了多个 GLN 算法，包括 NRGNN、RTGNN、CP、D-GNN、 RCNGLN、CLNode、PIGNN、UnionNET、CGNN 和 CRGNN；以及⼀组设计良好的 LLN 方法，包括两种损失修正方法 Forward Correction 和 Backward Correction、两种稳健损失函数 APL 和 SCE、两种多网络学习方法 Coteaching 和 JoCoR，以及⼀种噪声适应层方法 S- model。并根据它们的论⽂和源代码严格地复现了所有⽅法。

【浙大周晟团队】NoisyGL针对标签噪声下图NN基准

目录

评论区 (0)