(通讯员 臧熠璇)近日,计科院多篇论文成果分别被CCF A类会议ISSTA、VLDB、KDD、ICDE、IJCAI、CVPR和CCF A类期刊ACM TODS、IEEE TMC、IEEE TIP录用。其中,杨孟飞研究员团队1篇论文被CCF A类会议ISSTA录用,智能媒体与数据工程研究所10篇论文分别被CCF A类会议ICDE、KDD、VLDB、CVPR和CCF A类期刊ACM TODS、IEEE TMC、IEEE TIP录用,计算机网络与物联网工程研究所2篇论文被CCF A类会议IJCAI和CCF A类期刊IEEE TIP录用,计算理论与技术研究所1篇论文被CCF A类会议IJCAI录用。这些论文涵盖软件测试、智能感知计算、向量数据库、时序数据库、神经网络验证、图自监督学习、知识图谱对齐、强化学习、信息检索、计算机视觉、图像处理等多个领域。
杨孟飞研究员博士生刘金伟,通讯作者北京控制工程研究所陈睿研究员论文“STRUT: Structured Seed Case Guided Unit Test Generation for C Programs using LLMs”被CCF A类会议ISSTA 2025录用。本研究旨在解决LLM生成单元测试执行通过率低、覆盖率不足以及对复杂语言特性支持有限的问题,提出了一种结构化测试用例生成模式,将结构化测试用例作为LLM和测试代码之间的桥梁,使得LLM能够在约束范围内生成更加规范的测试用例,减少LLM出错的概率。通过结构化定义,避免了LLM生成测试代码时存在的诸多不确定性,显著降低了LLM生成单元测试时出现错误的概率,提升了LLM在单元测试自动化生成和执行的效果。
智能媒体与数据工程研究所博士生孔涛,通讯作者李辉教授论文“STsCache: An Efficient Semantic Caching Scheme for Time-series Data Workloads Based on Hybrid Storage”被CCF A类会议VLDB 2025录用。该论文首次提出了“语义时间序列缓存”的定义,设计并实现了一个基于内存与NVMe SSD混合存储模型的时间序列语义缓存系统——STsCache。该系统设计实现了一系列优化策略,包括基于slab的语义数据管理、语义索引、基于语义价值的批量淘汰机制、时间感知的去重插入以及惰性压缩技术。通过基准测试和生产环境真实负载对STsCache进行了验证与评估。实验表明,STsCache可将主流时间序列数据库(InfluxDB、TimescaleDB)的吞吐量提升4.8–10.8倍,并将延迟降低79.9%–93.5%。相较于最新的时间序列缓存方案(TSCache、BSCache),STsCache的吞吐量可提升1.5–4.5倍,延迟降低59.4%–81.9%,缓存命中率提高22.5%–82.4%。据悉,包括本论文在内,崔江涛教授团队在VLDB 2025累计发表论文4篇。
智能媒体与数据工程研究所青年教师刘英帆,通讯作者李辉教授论文“Privacy-Preserving Approximate Nearest Neighbor Search on High-Dimensional Data”被CCF A类会议ICDE 2025录用。该论文提出了一种新的解决方案,该方案主要在单个云服务器上执行PP-ANNS,以避免云和用户之间的通信开销。为了确保数据隐私,引入了一种名为距离比较加密的新颖加密方法,进行安全、高效且精确的距离比较。为了平衡数据隐私和搜索性能,设计了一种结合k-ANNS 方法和近似距离计算方法的隐私保护索引,基于该索引设计了一种基于过滤-精炼策略的搜索方法。对所提出的方案进行了安全性分析。根据实验结果,与现有方法相比,在不牺牲精确性的同时,加速PP-ANNS达三个数量级以上。
智能媒体与数据工程研究所青年教师杨亚明,通讯作者管子玉教授论文“A Translation-based Heterogeneous Graph Neural Network for Multiple Knowledge Graphs Alignment”被CCF A类会议ICDE 2025录用。该论文提出了一种新颖的知识图谱编码器KG2HIN,将头实体、关系以及尾实体看作三种类型的节点,从而将知识图谱转化为异构图。KG2HIN通过结合异构图神经网络中的聚合算子以及传统知识图谱嵌入方法中的翻译算子,能够自适应地学习不同阶数翻译语义的重要性。在KG2HIN编码器的基础上,进一步构建了一个图神经网络模型,并将其用于同时对齐多个(超过两个)知识图谱。与现阶段最优的基线方法相比,KG2HIN在DBP-4数据集上的M-Hits@1(准确率)从10.25%显著提升至73.05%,在DWY-3数据集上从41.19%提升至97.81%,同时大幅减少了模型参数量和训练时间。
智能媒体与数据工程研究所霍红卫教授论文“Indexing Labeled Property Multidigraphs in Entropy Space, With Applications”被CCF A类会议ICDE 2025录用。该论文首次建立了标签属性多重图的熵压缩表示模型,提出了一种标签属性多重图的新型自索引CGraphIndex。该自索引首次达到了标签属性多重图的高阶熵空间压缩。自索引实际上对原始输入进行编码,因此无需单独存储输入数据。CGraphIndex支持在结构和属性上常量时间执行基本操作和导航操作,并支持对顶点属性和边属性的快速提取。在大型LDBC SNB SF1000基准数据上的实验表明,对于比较的交互式复杂查询、商务智能查询以及典型的图分析BFS和PageRank,CGraphIndex的空间占用和查询时间均显著优于流行的图数据库系统Neo4j(社区版)。CGraphIndex的查询时间通常快若干数量级,同时空间占用降低了数倍。
智能媒体与数据工程研究所博士生郑梓煜,通讯作者赵伟教授论文“Enhancing Homophily-Heterophily Separation: Relation-Aware Learning in Heterogeneous Graphs”被CCF A类会议KDD 2025录用。该论文提出了关系感知的同配和异配分离框架(RASH),能对异构交互的高阶语义进行建模,并自适应地分离节点的同配和异配模式,同时RASH 引入了对偶异构超图,以来编码多关系二分子图,并根据关系的重要性动态地构建同配图和异配图。设计了一种多关系对比损失,通过最大化互信息来调整异构视图和同配/异配视图来同时解决异构图中的异构性和异配性的问题。在基准数据集上进行的大量实验证明了 RASH在各种下游任务中的有效性。
智能媒体与数据工程研究所博士生郑梓煜,通讯作者管子玉教授论文“Discrepancy-Aware Graph Mask Auto-Encoder”被CCF A类会议KDD 2025录用。该论文提出了差异感知图掩码自动编码器(DGMAE)。通过在掩码过程中重建相邻节点的差异信息,从而获得更具区分度的节点表示。在 17 个广泛的节点上进行了广泛的实验。结果表明, DGMAE可以有效地保留了低维空间中节点的差异信息。此外,DGMAE还在三个图学习任务(节点分类,节点聚类,图分类)的自监督学习方法上明显优于最先进的图自监督学习方法。
智能媒体与数据工程研究所博士生方振轩,通讯作者毋芳芳论文“Parameterized Blur Kernel Prior Learning for Local Motion Deblurring”被CCF A类会议CVPR 2025录用。该论文提出了一种新颖的参数化运动核建模方法,该方法通过三个关键参数—长度、角度和曲率,定义运动模糊核。使用网络来估计这些核参数,从而显著提高了模糊核估计的准确性。为了有效地学习运动模糊表示,引入了一个共享内存模块,用于存储模糊先验信息。提出了一个双分支去模糊网络:一个分支利用Mamba捕捉长程依赖,另一个分支则使用掩码引导的CNN聚焦于细化局部模糊区域。通过充分利用估计的模糊先验信息,所提方法显著提升了去模糊效果。
智能媒体与数据工程研究所青年教师刘英帆论文“Graph Based K-Nearest Neighbor Search Revisited”被CCF A类期刊ACM TODS录用,该论文第一作者是香港中文大学Jeffrey Xu Yu教授团队博士生谢嘉东,通讯作者刘英帆。该论文提出了一种新颖的搜索框架,用于标记有向图-单调图(MG)索引结构。与以往的方法相比,所提出的MG搜索框架为任何给定查询找到top-1最近邻提供了理论保证,无需预设参数,是首个为top-k ANN搜索提供理论保证的基于图的方法。基于这些理论方法,进一步通过引入一个名为单调邻域图(Monotonic Neighborhood Graph, MNG)的实际图索引版本来提高索引构建的效率。广泛的实验表明,该论文提出的技术在广泛认可的真实世界数据集上优于所有现有方法。
智能媒体与数据工程研究所青年教师李青洋论文“FedHMIR: Unified Framework for Federated Human-Machine Synergy in Personalization-GeneralizationBalancing Identity Recognition”被CCF A类期刊IEEE TMC录用,该论文提出联邦化人机协同身份识别框架FedHMIR,通过协调人机协作与个性化-泛化性权衡机制,同步解决相关挑战。该框架创新性地设计了人机协同在线内部更新机制,利用强化学习保持个性化本地身份识别模型的适应性;为抑制过拟合并提升整体识别系统的泛化能力,引入融合置信度的外部更新流程;同时采用异步式内外更新策略,有效协调本地模型与全局模型间个性化与泛化性的平衡。最终,在三个异构现实场景数据集上的大量实验表明,FedHMIR相较现有最优基线方法具有显著优势。
智能媒体与数据工程研究所教师毋芳芳论文“Joint spatial and frequency domain learning for lightweight spectral image demosaicing”被CCF A类期刊IEEE TIP录用。现有的深度学习光谱去马赛克方法通常依赖基于插值的初始化策略,并通过学习空间域中二维马赛克图像到三维光谱图像的非线性映射进行重建。然而,这些方法普遍忽视了频域中蕴含的关键信息,限制了最终的重建质量。为了解决上述问题,提出了一种新颖的轻量化光谱图像去马赛克方法。首先,设计了一种基于傅里叶变换的无参数光谱图像初始化策略,有效缓解了后续重建的难度。随后,构建了融合空间与频域特征的高效空间-频率Transformer网络,并引入频域自适应滤波模块,以进一步提升重建性能。实验结果表明,该方法在大幅降低模型复杂度的同时,在模拟与真实数据集上均显著优于现有主流去马赛克方法。
计算机网络与物联网工程研究所硕士生纪博凯,通讯作者李光夏副教授论文“Learning to Explain: Towards Human-Aligned Explainability in Deep Reinforcement Learning via Attention Guidance”被CCF A类会议IJCAI 2025录用。该论文针对现有可解释深度强化学习(DRL)方法忽视人类认知偏好的问题,提出了一种融合注意力机制的新模型Concept-PPO。该模型通过联合优化DRL性能与解释-标注差异,生成符合人类认知的决策解释。其核心是空间概念转换器,能通过预屏蔽无关信息提升解释效率。在ATARI基准测试中,Concept-PPO既优于黑盒模型的政策性能,用户研究也证实其生成解释的人类对齐性显著优于现有方法。该研究首次将人类认知纳入DRL解释过程,解决了传统解释主观性不足的缺陷。
计算机网络与物联网工程研究所教师李晓,通讯作者方敏教授论文“Generalized Category Discovery with Unknown Sample Generation”被CCF A类期刊IEEE TIP录用。该论文提出了一种解决广义类别发现中未知类别的识别问题的新方法。与传统半监督学习(SSL)不同,该方法不仅利用已知类别的标注和未标注数据,还通过生成未知样本来增强模型对未知类别的识别能力。该方法首先采用原型对齐技术估计未知类别数并为未标注数据分配伪标签,随后基于已知与未知类别之间的关系生成具有判别性的未知样本,并通过最小化类别间最大均值差异确保生成样本的真实性。此外,通过结合生成样本和伪标签监督损失训练分类器,有效减少了错误标签的干扰。实验结果表明,该方法在多个基准数据集上显著提升了模型对已知和未知类别的分类性能,为开放环境下的视觉识别任务提供了有效解决方案。
计算理论与技术研究所博士生刘月浩,通讯作者田聪教授论文“Neuron Similarity-Based Neural Network Verification via Abstraction and Refinement”被CCF A类会议IJCAI 2025录用。该论文提出了一种新的抽象-细化验证方法,该方法能够在保持验证准确率的同时缩减网络规模。具体而言,该方法基于神经元的输出区间等多种因素量化神经元之间的相似性,然后合并相似的神经元以生成更小的抽象网络。此外,开发了一种反例引导的细化流程,以减轻潜在虚假反例的影响,使抽象网络的验证结果能够应用于原始网络。将该方法实现为名为ARVerifier的工具,并将其与三个最先进的验证工具集成,在 ACAS Xu 和 MNIST 基准上进行评估。实验结果表明,ARVerifier相较现有方法具有显著优势。
这些成果充分展示了学院在计算机学科相关研究方向取得的重要学术进展,标志着学校在该领域的研究得到了国际同行的进一步认可,推动学科建设创新发展。