《Scientific Reports》:Predicting determinants of unimproved water supply in Ethiopia using machine learning analysis of EDHS-2019 data
编辑推荐:
为解决埃塞俄比亚清洁安全饮用水获取难题,研究人员开展 “Predicting determinants of unimproved water supply in Ethiopia using machine learning analysis of EDHS-2019 data” 研究。结果显示随机森林(Random Forest)模型表现最佳,社区贫困等因素影响显著。该研究为解决水危机提供决策依据。
在全球范围内,有超过 20 亿人正面临着获取清洁、安全饮用水的困境。这一问题在低收入国家尤为严峻,许多人不得不使用如露天水井和地表水等未改善的水源。这些水源与水传播疾病的传播紧密相关,给公共卫生系统带来了沉重负担。在欠发达国家,由于医疗资源有限、卫生条件不佳,许多人深受与水相关的健康问题困扰。传统的分析技术在研究中常常难以捕捉众多变量之间的复杂关系,限制了对未来趋势的预测能力,无法为解决水资源危机提供足够有效的支持。
为了突破这些困境,来自埃塞俄比亚贡德尔大学医学院和健康科学学院公共卫生研究所环境与职业健康安全系等机构的研究人员,开展了一项极具意义的研究。他们运用机器学习分析埃塞俄比亚 2019 年人口与健康调查(Ethiopia Demographic and Health Survey,EDHS-2019)的数据,旨在更精准地预测影响未改善水源供应的因素,为政策制定、资源分配和干预措施提供数据驱动的见解,以应对埃塞俄比亚的水危机。该研究成果发表在《Scientific Reports》上。
研究人员在开展此项研究时,运用了多种关键技术方法。首先,他们选用 EDHS-2019 数据集,该数据集涵盖了社会经济、人口统计和用水获取等多方面的详细信息。在数据处理阶段,对数据进行预处理,包括处理缺失值、对分类变量赋值等。接着,研究人员运用了随机森林(Random Forest)、梯度提升机(Gradient Boosting Machines)、支持向量机(Support Vector Machines)、人工神经网络(Artificial Neural Networks)和 k 近邻(k-nearest Neighbors)等六种机器学习模型。为防止过拟合,通过随机搜索和 7 折交叉验证调整超参数,并利用标准分类指标评估模型性能,还借助排列重要性和 SHAP(Shapley Additive Explanations)值分析特征重要性,利用地理信息系统(Geographic Information Systems,GIS)进行空间分析。
模型性能评估
研究人员通过对比多种评估指标发现,随机森林模型在众多模型中表现最为出色。从关键指标来看,其曲线下面积(Area under the curve,AUC)达到 0.8915,F1 评分(F1-score)为 0.919298,灵敏度(Sensitivity)为 0.879195,特异性(Specificity)为 0.966887。这些数据表明,随机森林模型在类别区分、召回率和精确率平衡、准确识别阳性案例以及避免误判等方面能力突出。此外,它的 Kappa 值为 0.846571,准确率(Accuracy)高达 0.923333,说明该模型能够有效处理类别不平衡问题,与真实类别标签的一致性高,是所有评估模型中最可靠的。
特征重要性
通过随机森林模型的特征重要性 SHAP 小提琴图分析可知,“社区层面贫困” 是影响未改善水源供应的最重要预测因素,其重要性得分远超其他特征。“家庭财富指数” 和 “户主年龄” 也有显著贡献,但相对较弱。相比之下,“地区”“家庭最高教育水平”“居住地” 和 “社区媒体曝光度” 等特征的重要性得分较低,对模型预测的影响较小。这一结果有助于明确模型预测能力的主要来源,为特征选择和模型解释提供了关键依据。
未改善水源分布
研究人员利用 GIS 进行空间分析后发现,埃塞俄比亚在改善水源获取方面存在显著的地理差异。从地图上可以看到,该国北部的提格雷(Tigray)、阿姆哈拉(Amhara)和阿法尔(Afar)等深绿色区域,未改善水源的比例最低,意味着这些地区的居民能更好地获取清洁水;而中部的亚的斯亚贝巴(Addis Ababa)、德雷达瓦(Dire Dawa)、哈拉里(Harari)以及南部部分地区,未改善水源集中程度较高,以黄色到红色区域表示。这表明不同地区的水源供应情况差异较大,某些地区在获取清洁水方面面临更大挑战。
在结论与讨论部分,研究结果表明埃塞俄比亚仅有少数地区能获取改善后的水源,且水源分布广泛。随机森林模型在预测未改善水源供应影响因素方面表现卓越,优于其他模型。社区层面的贫困对未改善水源供应影响最大,可能是因为贫困社区缺乏建设基础设施的能力。社区教育水平、个人最高教育水平、媒体曝光度、户主年龄、居住地、地区和家庭财富指数等因素也在不同程度上影响着水源获取。例如,教育水平的提高可能增强人们对改善水源重要性的认识,家庭财富指数高的家庭更有能力获取更好的水源。空间差异分析显示,不同地区的基础设施和自然水源变化是导致水源获取差异的重要原因。
这项研究具有重要意义,其通过机器学习算法深入剖析了影响埃塞俄比亚未改善水源供应的因素,为解决该国水危机提供了关键的数据支持和决策依据。研究结果突出了在贫困率高、基础设施不足地区开展针对性干预的必要性,有助于政策制定者更合理地分配资源,制定更有效的水资源管理策略,提高埃塞俄比亚整体的水资源供应水平,改善民众的生活质量和健康状况。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》