科研学术

分享到微信 ×
打开微信“扫一扫”
即可将网页分享至朋友圈
计算机(网安)学院郑凯教授团队在数据库与数据挖掘顶级会议发表多篇学术论文
文:计算机(网安)学院 来源:计算机学院 时间:2024-11-27 1583

  近日, 计算机(网安)学院研究生先后在计算机数据库与数据挖掘顶级会议SIGMOD等发表一系列包括数据库性能优化、投资组合管理、向量检索与时空预测等领域在内的高水平研究成果。

  论文《Optimizing Block Skipping for High-Dimensional Data with Learned Adaptive Curve》被数据库领域CCF A类会议SIGMOD/PODS International Conference on Management of Data (SIGMOD 2025) 录用。该论文第一作者为博士研究生陈旭,郑凯教授为通讯作者,电子科技大学为第一单位。

  在大数据和云分析领域,高效管理和检索高维数据是一项重要挑战。传统索引方法在处理大规模数据集时通常面临较大的存储开销问题。近年来,小型物化聚合因其能够维护轻量级的文件级元数据并促进高效的文件过滤操作,受到云数据库厂商的关注。然而,SMA的性能高度依赖于数据布局。该论文提出了一种名为 AdaCurve 的新方法,通过自适应优化数据布局来增强高维数据集中的文件过滤效率。不同于传统的静态和非自适应的空间填充曲线,AdaCurve利用机器学习设计了一种自适应曲线,这是一种针对高维工作负载和数据特性动态调整的最优投影函数。论文引入了基于注意力机制的网络来处理高维数据,并设计了一个可学习的目标函数,以端到端的方式训练自适应曲线。该论文在 Spark 平台和真实数据集上的广泛实验表明了AdaCurve的有效性。结果显示,AdaCurve可扩展到高达 1000 列的高维数据集,与传统SFC方法相比,在文件过滤性能上实现了2.8倍的提升。

1.png

图1 AdaCurve流程图

  论文《MILLION: A General Multi-Objective Framework with Controllable Risk for Portfolio Management》被数据库领域CCF A类会议International Conference on Very Large Data Bases (VLDB 2025) 录用。该论文第一作者为博士研究生邓力玮,郑凯教授为通讯作者,电子科技大学为第一单位。

  投资组合管理是金融科技人工智能中一项重要但具有挑战性的任务,其目的是在不同资产之间分配投资者的预算,以平衡投资的风险和回报。本研究提出一个带有可控风险的多目标投资组合管理通用框架(MILLION), 包括两个主要阶段,即与回报相关的最大化和风险控制。具体而言,在与回报相关的最大化阶段,引入了两个辅助目标,即回报率预测和回报率排名,并结合投资组合优化来解决过拟合问题并提高训练模型对未来市场的泛化能力。随后,在风险控制阶段提出投资组合插值和投资组合改进,以实现细粒度的风险控制和快速适应用户指定的风险水平。对于投资组合插值方法,已从理论证明如果要设定的风险水平处于适当区间,风险可以得到完美控制。其次,只要回报最大化阶段的模型有效,经投资组合插值调整后的投资组合回报率不会低于最小方差优化的回报率。此外,与投资组合插值相比,投资组合改进方法在保持相同风险水平的情况下能够实现更高的回报率。该论文在三个真实世界数据集上进行了广泛的实验,结果证明了所提出框架的有效性和高效性。

2.png

图2 MILLION流程图

  论文《Efficient Data-aware Distance Comparison Operations for High-Dimensional Approximate Nearest Neighbor Search》被数据库领域CCF A类会议International Conference on Very Large Data Bases (VLDB 2025) 录用。该论文第一作者为博士研究生邓力玮,郑凯教授为通讯作者,电子科技大学为第一单位。

  高维近似K近邻搜索(AKNN)是包括信息检索在内的各种应用中的一项基本任务。大多数现有的AKNN算法可分解为两个主要部分,即候选生成和距离比较操作(DCOs)。虽然不同方法有独特的候选生成方式,但它们都共享相同的DCO过程。该研究重点关注加速在大多数现有AKNN算法中占时间主导地位的DCO过程,提出了一种称为DADE(数据感知距离估计)的方法,它在低维空间中近似精确距离,并从理论上证明了DADE中的距离估计在数据分布方面是无偏的。此外,该论文基于无偏距离估计公式提出了一种优化估计方法,并随之提出一种假设检验方法,以自适应地确定有足够置信度来估计精确距离所需的维度数量。该论文将DADE集成到广泛使用的AKNN搜索算法中,例如IVF和HNSW,并进行了大量实验以证明其优越性。

3.png

图3 DADE实验结果

  论文《Efficient Large-Scale Traffic Forecasting with Transformers: A Spatial Data Management Perspective》被数据挖掘领域CCF A类会议SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2025) 录用。该论文第一作者为博士研究生方雨晨,郑凯教授为通讯作者,电子科技大学为第一单位。

  道路交通预测在城市管理和个人出行等现实智能交通场景中至关重要。时空图神经网络(STGNN)是当前该任务的主流解决方案。然而,基于动态空间建模的STGNN的二次复杂度已成为大规模交通预测的瓶颈。从空间数据管理的角度出发,该论文提出了一种新颖的Transformer框架SDMormer来高效、动态地建模空间依赖关系,以实现具有可解释性和保真性的大规模交通预测。具体而言,其设计了一种新颖的不规则切片技术来减少Transformer动态计算中涉及的令牌数。不规则切片技术首先利用叶子KDTree将不规则分布的交通点递归划分为具有小容量的叶子节点,然后通过填充和回溯将属于同一子树的叶子节点合并为容量相等且不重叠的切片。基于切片划分数据,Transformer编码器交替使用深度和广度注意力,以从同一切片和具有相同索引的点动态学习局部和全局空间知识。在四个现实世界的大规模交通数据集上的实验结果表明,SDMormer的训练速度和内存利用率实现高达10倍和4倍的提升,并保持最优越的预测性能。

4.png


图4 SDMormer流程图

  电子科技大学数据与智能实验室由计算机(网安)学院郑凯教授领导,长期从事数据库系统、人工智能、数据挖掘、自动驾驶等领域的前沿研究。课题组已在国际著名会议和期刊上发表论文200余篇,其中包括80余篇CCF A类论文,授权发明专利6项,两次获得数据库顶级会议ICDE的最佳论文奖(2015和2019年),被同行引用14000余次(Google Scholar),H指数达61。课题组同学曾获得成电杰出学生与国家奖学金等荣誉。为解决当前实际工业问题并促进科研成果的转化与落地,课题组与华为、微软、京东、阿里等多家国内外知名企业保持长期合作关系。

  SIGMOD/PODS International Conference on Management of Data (SIGMOD) 与International Conference on Very Large Data Bases (VLDB) 被中国计算机学会(CCF)认定为数据库领域A类会议,都是数据库领域历史悠久的三大顶级会议 (SIGMOD、VLDB、ICDE) 之一。SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 被中国计算机学会(CCF)认定为数据挖掘领域A类会议,是数据科学领域历史最悠久、规模最大的国际顶级学术会议。

编辑:王晓刚  / 审核:李果  / 发布:陈伟