近日,2019级博士生靳晓忠(导师刘海坤教授)的论文“I/O Causality Based In-line Data Deduplication for Non-Volatile Memory Enabled Storage Systems”被 IEEE Transactions on Computers (TC) 期刊录用。
数据去重技术在缩减存储空间的领域得到了广泛应用。然而,目前主流的基于数据块的离线去重技术往往由于数据切分和索引引起了严重的性能开销。特别是在基于非易失性内存(Non-Volatile Memory,NVM)的情境中,现有的去重系统未能充分发挥NVM字节可寻址特性进行细粒度去重,导致去重效能不尽如人意。为解决这一问题,论文提出了基于I/O因果关系的实时数据去重(I/O Causality based In-line Deduplication ,ICID)技术,旨在最大程度地提高基于NVM的存储系统的去重率。与以往采用哈希索引识别重复数据的去重方案有所不同,ICID通过将内存复制操作记录在B树结构中,实现了基于因果关系的实时去重。论文提出了两种管理B树中内存复制记录的技术。首先,为了加速B树查找,将位于同一页面的内存复制记录分组在一个B树节点中,以提高数据局部性。其次,利用内存访问的空间局部性来识别过时的内存复制记录,并及时删除它们,以减少B树占用的内存空间。在搭载了英特尔傲腾持久内存模块(Intel Optane DC Persistent Memory Modules,DCPMM)的系统中对ICID进行了评估。针对典型的KV存储——LevelDB,实验结果表明,相较于最先进的去重方案,ICID最大可提升16倍的去重率,并平均减少了47%的数据去重时间开销。
IEEE Transactions on Computers (TC) 属于中国计算机学会CCF A类期刊,是计算机系统领域最权威的国际学术期刊之一,影响因子为3.183。
(通讯员:靳晓忠)