港大开源图基础大模型OpenGraph 增强图学习泛化能力
香港大学数据智能实验室主任黄超的团队近期成功研发了一款名为OpenGraph的图基础大模型,该模型专注于在多样化的图数据集上进行零样本预测。OpenGraph通过学习通用的图结构模式,实现了仅通过前向传播就能对全新数据进行准确预测的能力,有效解决了图学习领域普遍存在的数据稀缺问题。
OpenGraph的关键特点如下:
强大的泛化能力:该模型设计用于通过图结构模式学习,使模型能够对未见数据进行零样本预测,展现出卓越的泛化性能。
创新的提示调整技术:团队提出的提示调整技术极大地增强了模型对新任务的适应性,进一步提升了其在实际应用中的灵活性。
GitHub开源:OpenGraph已在GitHub上开源,旨在促进学术界和工业界对该模型的使用和研究,共同推动图学习领域的发展。
跨数据集预测能力:该模型能够跨不同图数据集进行预测,有效解决了数据集间token差异的问题,使得模型的应用范围更加广泛。
节点关系建模:在构建通用图模型时,OpenGraph通过有效建模节点关系,显著提升了模型的扩展性和效率。
数据增强与模拟:通过大型语言模型进行数据增强,模拟复杂的图结构关系,有效提升了模型的训练质量和预测准确性。
独特的模型架构:OpenGraph模型由统一图Tokenizer、可扩展的图Transformer和基于大语言模型的知识蒸馏技术三个核心部分组成,为模型的高效运行提供了坚实基础。
实验验证:在多样化的真实场景数据集上进行了一系列测试,包括节点分类和链接预测任务,OpenGraph在零样本预测中均表现出色,验证了其在实际应用中的有效性。
展望未来,团队计划进一步增加OpenGraph框架的自动化能力,自动识别噪声连接,进行反事实学习,并提取图结构的通用模式,以推动模型在更多领域的应用和效果提升。
研究结论显示,OpenGraph作为图基础模型构建的初步尝试,已经在多个标准数据集上展现出出色的泛化性能。研究人员期望通过OpenGraph显著增强模型在零样本图学习任务中的泛化能力,并探索多种下游应用,为图学习领域的发展贡献更多力量。
项目地址:https://github.com/HKUDS/OpenGraph
论文地址:https://arxiv.org/pdf/2403.01121