LOGO LOGO
实验室两篇论文被软件工程领域顶会录用
时间:2023-12-20 10:03:37

近日,软件工程领域顶级会议The 46th IEEE/ACM International Conference on Software Engineering (ICSE 2024) 录用结果揭晓,实验室博士生冯思乐(导师邹德清教授)和硕士生王宁(导师邹德清教授)的两篇论文均被录用。

冯思乐的论文题目为“Machine Learning is All You Need: A Simple Token-based Approach for Effective Code Clone Detection”。随着软件工程的发展和代码需求的增加,代码克隆现象也越来越普遍。代码克隆检测指的是发现两个代码片段在功能上的相似性,代码克隆在带来便利的同时会增加维护成本,甚至导致漏洞传播,对软件安全造成负面影响。这种现象凸显了代码克隆检测技术的日益重要性。近年来,虽然已经提出了许多代码克隆检测方法,但在实际代码环境中,这些方法往往不尽如人意。它们要么难以有效识别代码克隆,要么需要大量时间和计算资源来处理复杂的克隆。论文介绍了一种使用Token和机器学习的代码克隆检测方法Toma。该方法提取Token类型序列,并采用六种相似性计算方法生成特征向量。然后将这些向量输入经过训练的机器学习模型进行分类。实验结果表明,Toma在广泛使用的BigCloneBench数据集上展示了有效性和可扩展性。对于现实世界中出现的大多数简单代码克隆,Toma已经足以检测到它们,并且可以超越大多数基于树的工具。对于可扩展性而言,当只使用 CPU 时,Toma在预测时间上比先进的基于图的工具DeepSim快65.68倍。

王宁的论文题目为“On the Effectiveness of Function-Level Vulnerability Detectors for Inter-Procedural Vulnerabilities”。随着软件漏洞成为最重要的网络威胁之一,有效的漏洞检测方法成为保障网络安全的重中之重。一类主流的漏洞检测方法是基于深度学习的函数级漏洞检测模型,然而,这类方法的局限性尚不清楚。论文研究了当前的函数级漏洞检测方法在检测“跨函数漏洞”上的局限性(其中“跨函数漏洞”指的是漏洞的修补位置与触发位置不在同一函数的漏洞),提出了一个用于识别跨函数漏洞的触发行语句的自动化工具VulTrigger,该工具基于程序静态分析,并采用人工经验的规则加以辅助。实验结果表明,与基于规则的静态检测工具相比,VulTrigger在识别漏洞触发行语句的平均准确率提高了55.8%,与基于深度学习的函数级漏洞检测模型相比,VulTrigger在识别漏洞触发行语句的平均误报率降低了20.6%、漏报率降低了32.7%。利用VulTrigger,论文创建了第一个基于C/C++开源软件的跨函数漏洞数据集,基于对该数据集的分析和统计,论文发现:(1)跨函数漏洞在开源软件中普遍存在,平均每个漏洞跨越的层数达2.8;(2)当前的函数级漏洞检测工具难以有效识别漏洞的触发行语句。

ICSE是软件工程领域公认的旗舰学术会议,也是中国计算机学会(CCF)推荐的A类会议,近五年的平均录用率约为23%。


(通讯员:冯思乐、王宁)