《Environmental and Ecological Statistics》:Nonparametric Bayesian Poisson hurdle random effects model: an application to temperature–suicide association study
编辑推荐:
为解决传统两阶段元分析在研究温度与自杀关联时存在的如 Poisson 分布假设不恰当、无法准确描述异质性等问题,研究人员开展了非参数贝叶斯泊松障碍随机效应模型(np-BayesPHM)的研究。结果显示该模型能更好地探究异质性,对分析零膨胀计数数据具有重要意义。
在环境流行病学领域,自杀与环境温度之间的关联一直是备受关注的研究课题。过往诸多研究表明,自杀率会随着环境温度的变化而波动,然而早期研究多假定二者关系为线性,近期研究却发现其呈现非线性特征,且不同地区间的关联存在显著异质性。传统的两阶段元分析方法在探究这种关联时暴露出诸多缺陷。一方面,每日自杀人数常出现零值,使得 Poisson 分布假设难以成立;另一方面,第二阶段元回归中对第一阶段估计值的正态假设不够灵活,无法精准刻画地区间的异质性,且未能妥善处理第一阶段估计的统计不确定性。这些问题严重阻碍了对温度 - 自杀关联的深入理解,为进一步探究二者关系带来了挑战。
为攻克这些难题,来自韩国忠北国立大学(Chungbuk National University)、三星 SDS(Samsung SDS)、韩国忠南国立大学(Chungnam National University)、东京大学(University of Tokyo)以及韩国科学技术院(Korea Advanced Institute of Science and Technology)的研究人员展开了一项深入研究。他们提出非参数贝叶斯泊松障碍随机效应模型(np - BayesPHM),并将其应用于日本全国温度 - 自杀关联研究中。研究成果发表在《Environmental and Ecological Statistics》杂志上,为该领域研究提供了全新的视角和有力的方法。
在研究过程中,研究人员运用了多种关键技术方法。首先,他们收集了日本 47 个县 2011 - 2015 年的每日自杀人数和平均环境温度的时间序列数据,这些数据涵盖了 1826 天的信息,为研究提供了坚实的数据基础。其次,通过构建 np - BayesPHM 模型,该模型基于障碍模型(hurdle model),将数据分为二元和正值两部分进行建模,并借助 Dirichlet 过程(DP)混合正态分布来描述随机效应的异质性。最后,采用马尔可夫链蒙特卡罗(MCMC)抽样算法进行贝叶斯推断,以获取模型参数的后验估计。
研究结果具体如下:
- 聚类分析:运用 np - BayesPHM 模型对数据进行聚类,发现日本各县可分为 4 个聚类。聚类 1 包含 36 个县,特点是老年人口比例高、总人口数量少;聚类 2 有 9 个县,老年人口比例相对较低、总人口数量大;聚类 3 为北海道,气温较低;聚类 4 是冲绳,气温较高且老年人口比例低。
- 温度影响分析:研究发现,随着温度升高,自杀概率和非零自杀计数的期望值均增加,但在高温时趋于平稳。不同聚类间存在差异,如蓝色聚类(聚类 2)的非零自杀概率和均值较高,红色聚类(聚类 1)则较低。
- 固定效应分析:固定效应估计结果显示,自杀概率和非零自杀计数在季节上呈现 3 月和 4 月的峰值,年效应表明二者呈逐渐下降趋势,而周效应则表现为周一系数最大,周六最低。
- 模型比较分析:通过与 BayesPHM、非参数贝叶斯泊松随机效应模型(np - BayesPM)和参数贝叶斯泊松随机效应模型(BayesPM)进行比较,np - BayesPHM 在模型拟合方面表现最佳,其偏差信息准则(DIC)值最小,在估计均值曲线时均方误差(MSE)也最小。
在研究结论与讨论部分,np - BayesPHM 成功揭示了日本各县温度 - 自杀关联异质性背后的子群体结构,为深入理解二者关系提供了有力依据。同时,研究表明该模型在处理零膨胀计数数据方面具有独特优势,为环境流行病学及其他相关领域的研究提供了一种通用的非参数贝叶斯建模方法,如在物种密度或丰度建模中具有潜在应用价值。然而,研究也存在一定局限性,如温度数据可能存在暴露误分类问题,且研究采用移动平均法处理温度滞后效应,相对简单。未来研究可考虑引入分布式滞后模型(DLM),在非参数贝叶斯建模框架内进一步优化研究方法,以提高研究的准确性和可靠性。
综上所述,该项研究提出的 np - BayesPHM 模型为温度 - 自杀关联研究开辟了新路径,虽然存在不足,但为后续研究指明了方向,对推动环境流行病学领域的发展具有重要意义。