-
生物通官微
陪你抓住生命科技
跳动的脉搏
平衡复杂度与精度的单目深度估计网络SimMDE:一种基于变形交叉注意力和小波变换的创新方法
《Scientific Reports》:A simple monocular depth estimation network for balancing complexity and accuracy
【字体: 大 中 小 】 时间:2025年04月16日 来源:Scientific Reports 3.8
编辑推荐:
编辑推荐:针对单目深度估计中计算复杂度与精度难以平衡的挑战,电子科技大学深圳高等研究院团队提出SimMDE模型,通过Deformable Cross-Attention Feature Fusion(DCF)解码器、Local Multi-dimensional Convolutional Attention(LMC)模块和Wavelet Attention Transformer(WAT)模块,在NYU和KITTI数据集上实现AbsRel指标11.7%和10.3%的提升,参数仅30.9M,为实时应用提供高效解决方案。
在计算机视觉领域,单目深度估计(Monocular Depth Estimation)是从单张静态图像中恢复每个像素深度信息的关键技术,广泛应用于虚拟现实、三维重建和机器人导航等场景。尽管该领域研究已相对成熟,但现有方法往往通过增加计算复杂度和参数量来提升性能,导致在计算资源受限的嵌入式系统或实时场景中难以应用。如何在不牺牲精度的前提下提高计算效率,成为亟待解决的核心问题。
针对这一挑战,电子科技大学深圳高等研究院的研究团队提出了一种新型单目深度估计模型SimMDE(Simple Monocular Depth Estimation),通过创新性地将深度估计转化为序数回归问题,结合多种先进技术模块,在精度和效率之间实现了卓越平衡。相关研究成果发表在《Scientific Reports》期刊上,为实时高精度深度估计提供了新思路。
研究团队首先构建了基于MSCAN的编码器结构,提取多尺度特征。核心创新在于设计了三个关键模块:1)采用稀疏注意力机制的Deformable Cross-Attention Feature Fusion(DCF)解码器,通过变形注意力机制降低Transformer模型的二次复杂度;2)Local Multi-dimensional Convolutional Attention(LMC)模块,在卷积核数量、输入通道和输出通道三个维度上应用注意力机制,增强局部特征提取能力;3)Wavelet Attention Transformer(WAT)模块,利用小波变换实现无损下采样,保留高频纹理细节的同时捕获长程依赖关系。模型在NYU和KITTI两个权威数据集上进行评估,采用AbsRel、RMSE等8项标准指标。
Deformable Cross-Attention Feature Fusion解码器
传统解码器多采用双线性上采样与卷积操作的组合,难以充分重建图像细节。研究团队提出的DCF解码器通过变形注意力机制,仅关注参考点周围的关键采样点,将计算复杂度从O(H2×W2×Cin)降至O(H×W×Cin2)。实验表明,该设计在保持性能的同时显著减少了参数量(仅1.54M)。
Local Multi-dimensional Convolutional Attention模块
针对动态卷积仅关注卷积核数量而忽略通道维度的问题,LMC模块创新性地在三个维度并行学习注意力权重。通过7×7卷积层提取局部特征后,采用深度可分离卷积(DWConv)和GELU激活函数降低计算量,再通过三支路注意力机制动态调整卷积核权重。与SENet、CABM等现有方法相比,LMC在NYU数据集上使AbsRel降低至0.091,参数量控制在287.84K。
Wavelet Attention Transformer模块
为解决传统Transformer因池化操作导致信息丢失的问题,WAT模块引入离散小波变换(DWT),将特征图分解为LL、LH、HL和HH四个子带,实现无损下采样。通过高/低通滤波器组,保留高频纹理信息的同时将特征维度降至1/4。实验显示,堆叠2层WAT时效果最佳,在多项指标上超越mViT和MSA模块。
深度估计模块与损失函数
模型采用两分支结构:概率预测分支通过Softmax输出N个深度区间的概率分布;像素分类分支通过WAT实现精确分类。最终深度值由区间中心深度c(bi)与概率pi线性组合得出。训练采用改进的Scale-Invariant损失函数,超参数λ=0.85,α=10。
在NYU数据集上,SimMDE以30.9M参数实现AbsRel 0.091,较AdaBins提升11.7%;在KITTI数据集上AbsRel达0.052,提升10.3%。零样本迁移实验显示,在SUN RGB-D、iBims-1等未见数据集上同样保持优势。与Metric3Dv2(203.24M参数)相比,参数量仅15.2%却达到相近精度。
该研究的突破性在于:1)首次将变形注意力与小波变换结合应用于深度估计;2)提出多维卷积注意力机制,增强CNN基础操作的特征提取能力;3)实现模型参数量(30.9M)与计算量(42.79 GFLOPs)的显著降低,推理速度达30.8 FPS。未来工作将探索多尺度特征融合的分箱策略,并扩展至三维重建等更多视觉任务。研究成果为资源受限场景下的实时高精度深度估计提供了可靠解决方案,具有重要的工程应用价值。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号