Federated Learning in Healthcare: A Benchmark Comparison of Engineering and Statistical Approaches for Structured Data Analysis—— 医疗领域联邦学习:结构化数据分析中工程与统计方法的基准比较

《Health Data Science》:Federated Learning in Healthcare: A Benchmark Comparison of Engineering and Statistical Approaches for Structured Data Analysis

【字体: 时间:2025年02月10日 来源:Health Data Science

编辑推荐:

  本文评估了 7 种联邦学习(FL)框架,包括工程和统计领域的算法,并与局部和集中式建模对比。研究发现统计 FL 算法估计模型系数偏差更小,工程方法预测性能略优。为 FL 在医疗领域应用提供方法选择建议,助力其发展。

  

一、研究背景

随着隐私法规的实施,传统数据共享策略在跨机构医学研究合作中面临挑战,联邦学习(Federated Learning,FL)应运而生。它作为一种机器学习范式,能让多个参与方(客户端)在不交换或传输数据的情况下,协作解决建模问题,保护数据隐私。在临床 FL 中,除了预测任务,准确估计重要因素与临床结果之间的关联(点估计)也至关重要,它能指导干预措施的制定和资源分配。虽然工程界正式提出了 “FL” 这一术语,但统计领域早就在研究类似的隐私保护算法,只是在医疗研究中未得到足够关注。工程和统计领域的 FL 算法存在差异,工程算法通常更注重预测能力,具有模型无关性;统计算法则更强调点估计的准确性,往往针对特定模型设计。目前还没有对这两个领域的 FL 方法进行实证比较,本研究旨在填补这一空白。

二、材料和方法

研究评估了 7 种 FL 框架,其中 3 种基于统计,分别是 Grid binary LOgistic REgression(GLORE)、Divide-and-Conquer(DAC)和 data-Shielding High-dimensional Integrative Regression(SHIR);4 种基于工程,包括 FedAvg、FedAvgM、-FedAvg 和 FedProx。这些框架用于逻辑回归和最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,Lasso)回归。评估分为两个阶段:首先用模拟数据评估,模拟数据来自 3 个客户端站点和一个中央数据集,涵盖数据分布基于均值和方差的变化以及模型变化 3 种场景;然后用来自 Medical Information Mart for Intensive Care IV Emergency Department(MIMIC-IV-ED)数据库和新加坡总医院(Singapore General Hospital,SGH)急诊科的真实临床数据评估,对数据进行同质和异质分区,并进行不同组合的联邦学习设置。

三、实验过程

GLORE、DAC 和 SHIR 框架通过改编相应的开源代码实现,FedAvg、FedAvgM 和-FedAvg 算法利用 Flower 框架实现,FedProx 算法采用其开源代码。GLORE 的迭代轮数根据连续两个值的距离确定,4 种工程框架的迭代轮数通过实证测试和微调确定。研究发现学习率对工程 FL 算法收敛影响较小,主要影响时间效率。

四、研究结果

  1. 预测任务性能:在模拟数据低维场景设置 I 中,单站点内所有 FL 框架在预测任务准确性上无显著差异,FedProx 的参数 “” 对预测任务性能影响较小。在真实数据实验中,工程 FL 模型有时比集中式分析具有更高的预测准确性,如 FedAvg、FedAvgM 和-FedAvg 在异质分区 MIMIC 数据的站点 1 测试数据上,以及 FedAvg 和 FedAvgM 在 MIMIC 和 SGH 联合数据的 SGH 客户端上表现显著优于中央模型。
  2. 系数估计的相对偏差和置信区间(Confidence Interval,CI):在模拟数据低维场景设置 I 中,GLORE、FedAvg、FedAvgM 和-FedAvg 在点估计的相对偏差上无显著差异,FedProx 的参数 “” 会导致点估计偏差显著不同。GLORE 能直接估计 CI,且模拟数据下覆盖率超 90%,但在站点间效应大小异质时,对各站点点估计的覆盖率可能不可靠。在高维场景中,工程方法的真阳性率(True Positive Rate,TPR)虽高,但阳性预测值(Positive Predictive Value,PPV)极低,变量选择能力弱;而统计方法 DAC 和 SHIR 在 TPR 和 PPV 上表现更平衡,PPV 值超过中央模型。
  3. 通信成本:模拟数据实验中,GLORE、DAC 和 SHIR 比工程方法通信效率更高,SHIR 只需 1 轮通信,DAC 预定 3 轮通信有效,GLORE 平均通信轮数少于 6 轮,工程方法至少需 10 轮收敛。真实数据实验中,GLORE 在通信成本上仍优于其他方法,FedProx 通信效率相对较低。

五、讨论

许多研究主要关注 FL 在预测领域的应用,本研究为临床结构化数据分析应用 FL 框架提供了实用建议。在非预测 FL 任务中,统计 FL 框架更具优势,其能方便估计模型参数的 CI,且理论上参数估计更准确、假设检验更可靠;但统计方法处理数据异质性时,模型特定开发的复杂性限制了其通用性。工程方法在处理数据异质性方面有更广泛的适用性,但在非预测任务中可能引入更多偏差。工程方法在真实数据预测性能上有时优于中央和局部模型,这可能与随机梯度下降(Stochastic Gradient Descent,SGD)提供的隐式正则化有关,它使模型在测试数据上的泛化和预测性能更好,但也可能导致参数估计偏差。在实际应用中,统计方法实现技术难度较低,不需要中央服务器;工程方法通常需要中央服务器,建立安全系统可能面临困难。

六、研究结论

工程和统计领域的 FL 方法各有优缺点。未来研究可探索融合两种方法,赋予工程方法统计推断能力,提高统计方法对多种模型的适应性。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号