关于分类的论文提纲

2022-11-15

论文题目:面向图数据分类的正例未标注学习算法研究及系统实现

摘要:图数据在日常生活以及科学领域广泛存在,图数据分类一直是数据挖掘领域的一个热点问题。图数据分类任务主要分为图节点(Node-level)分类任务和整图(Graphlevel)分类任务。传统的图数据分类算法在训练模型时,要求用户必须提供包含所有类别的已标注图节点集或整图集。然而,在许多实际应用中,用户往往仅可提供少量的、感兴趣的样本作为正例样本,但期望识别出感兴趣的其它样本。该类问题可建模为图数据分类的正例未标注学习(Positive Unlabeled Learning,PU学习)问题。本文针对图节点分类和整图分类的PU学习问题,提出了两种PU学习算法,并利用所提出的图节点分类的PU学习算法设计实现农业信息推荐原型系统。主要研究内容及成果如下:(1)研究图节点分类的PU学习问题。针对现有图节点分类的PU学习方法仅提取节点表征信息来推断节点类别的不足,提出了一种基于协作推断的正例未标注学习算法(Positive Unlabeled Learning Based on Collective Inference,PUCI),旨在从仅含正例和未标注节点中获取节点表征、局部节点标签依赖关系、正例节点关联信息,协作推断未知节点类别。首先,通过基于相似性个性化网页排位算法计算正例关联度。其次,利用图神经网络分别构建局部分类器和关系分类器并通过EM算法进行迭代优化。其中局部分类器利用节点表征和正例关联信息预测未知节点类别,关系分类器则利用节点标签依赖关系和正例关联信息,迭代更新节点标签。最后,通过混合非负无偏风险评估函数来进行正例未标注学习。在真实数据集Cora、Citeseer和Pubmed上的实验表明,相比于目前已有的图节点分类PU学习算法LSDAN,PUCI算法分类性能指标F1值在不同正例标注比下平均提高了5.31%。实验结果表明,基于协作推断的正例未标注学习算法可以有效地关联节点之间的信息,从而提高分类效果。(2)研究整图分类的PU学习问题。针对现有整图分类的PU学习方法仅利用图结构信息来识别可靠负例的不足,提出了一种基于多信息融合的正例未标注学习算法(Positive Unlabeled Learning Based on Multi-Information Fusion,GMI-Learning),旨在利用图的结构信息、边信息以及节点信息来识别可靠负例,以推断未知整图类别。首先,利用少量已标注图的结构信息、边信息和节点信息计算出未标注图与已知正例图的相似性指数。其次,对相似性指数进行排名获取可靠的负例图。通过获取的可靠负例图,将PU问题转化为二分类问题。最后,利用图卷积和图池化技术来获得整图表示,以多层感知机层作为分类器,推断未知图类别。在真实数据集MUTAG、DHFR、PTC_FM、PTC_MM、PTC_FR和PTC_MR上的实验表明,相比于目前已有的整图分类PU学习算法GPU-Learning,GMI-Learning算法分类性指标F1值在不同正例标注比下平均提高了4.86%。实验结果表明,基于多信息融合的正例未标注学习算法有更强的分类性能。(3)农业信息推荐原型系统设计与实现。利用农业信息内容提取特征信息构建农业信息特征向量,农业信息之间链接关系构建图模型。用户将感兴趣的农业信息添加至收藏夹,系统需要根据用户提供的收藏页,推荐其它感兴趣的农业信息。本文利用PUCI算法构建农业信息推荐模型,用户收藏夹可以视为正例节点,大量的其他农业信息则为未标注节点,并依托该模型,构建农业信息推荐原型系统。

关键词:协作推断;正例未标注学习;图节点分类;整图分类

学科专业:农业硕士(专业学位)

摘要

ABSTRACT

第一章 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.2.1 图节点分类

1.2.2 整图分类

1.2.3 PU学习

1.3 亟待解决的问题

1.4 论文主要工作及创新点

1.5 技术路线

1.6 论文结构安排

第二章 相关理论与技术简介

2.1 图数据分类

2.2 图神经网络

2.3 协作推断与图马尔可夫神经网络

2.4 图池化

2.4.1 基于拓扑结构的池化方法

2.4.2 全局图池化方法

2.4.3 层次图池化方法

2.5 本章小结

第三章 基于协作推断的图节点PU学习算法

3.1 问题定义

3.2 提出的方法

3.2.1 设计思想

3.2.2 计算正例关联度

3.2.3 PUCI算法

3.3 实验及结果分析

3.3.1 实验设置

3.3.2 单类别作为正例的实验结果

3.3.3 合并多类别作为正例的实验结果

3.3.4 选择邻居数最多的节点作为正例的实验结果

3.3.5 正例关联信息对类别推断的影响

3.3.6 正例先验误差分析

3.4 本章小结

第四章 基于多信息融合的整图PU学习算法

4.1 问题定义

4.2 提出的方法

4.2.1 设计思想

4.2.2 选取可靠负例图

4.2.3 GMI-Learning算法

4.3 实验及结果分析

4.3.1 实验设置

4.3.2 分类器性能的比较

4.3.3 可靠负例选择性能分析

4.3.4 参数敏感性分析

4.4 本章小结

第五章 农业信息推荐原型系统设计与实现

5.1 系统需求

5.1.1 功能性需求

5.1.2 非功能性需求

5.2 业务逻辑架构设计

5.2.1 数据预处理模块

5.2.2 数据存储模块

5.2.3 农业信息查询模块

5.2.4 农业信息收藏模块

5.2.5 农业信息推荐模块

5.3 技术架构设计

5.3.1 Web服务接口

5.3.2 PUCI推荐模型技术详情

5.3.3 Thrift跨语言交互技术详情

5.4 系统测试与评价

5.4.1 系统数据描述

5.4.2 原型系统效果展示

5.4.3 系统功能测试

5.4.4 系统性能测试

5.4.5 系统评价

5.5 本章小结

第六章 结论与展望

6.1 结论

6.2 展望

参考文献

致谢

研究成果

上一篇:外贸经济论文提纲下一篇:建筑会计论文提纲