解锁亚裔细分群体差异:基于维基数据姓名集的精准评估与突破

《Scientific Data》:Enabling disaggregation of Asian American subgroups: a dataset of Wikidata names for disparity estimation

【字体: 时间:2025年04月06日 来源:Scientific Data 5.8

编辑推荐:

  当前,美国种族数据存在诸多问题,如过于粗糙、收集困难等,尤其影响亚裔群体差异评估。研究人员开展 “Enabling disaggregation of Asian American subgroups” 主题研究,利用维基数据构建姓名 - 种族分布数据集。结果显示该数据集在预测任务中表现出色,有助于评估亚裔健康差异,推动种族公平研究。

  在当今社会,种族问题始终是一个备受关注的焦点,尤其是种族之间的差异,它影响着社会的方方面面,从教育、就业到医疗、社会福利等。在美国,种族数据的重要性不言而喻,它是研究人员、倡导者和政府机构了解种族差异、制定促进种族平等政策的关键依据。然而,现实却不尽如人意。现有的种族数据往往过于粗糙,难以进行有意义的公平性评估,许多时候,研究人员缺乏必要信息来识别和解决不同群体间存在的差异。
为了满足研究和政策制定的需求,一系列估算方法应运而生,其中贝叶斯改进姓氏地理编码(BISG)等姓名算法被广泛应用于多个领域,如公平贷款、投票、住房、保险和税收等。但这些方法也存在局限性,由于所依据的数据,它们实际上只能对粗略的种族类别进行估算,无法深入到亚裔细分群体层面。

与此同时,美国联邦法律对种族差异评估和数据收集标准提出了更高要求,然而在实际执行过程中却困难重重。许多实体不收集或受法规限制不能收集种族信息,联邦机构实施标准修订耗时久,且新标准对州和私人行为体的影响也存在滞后性,此外,历史数据难以与新标准一致,个体报告的低回复率也会导致样本偏差。

在亚裔群体中,数据问题更为突出。“亚裔美国人” 这一术语是一个社会建构概念,涵盖了众多具有不同原籍国、语言能力、社会经济地位、移民背景和健康状况的亚群体。但目前缺乏细分数据,加上 “模范少数族裔” 的刻板印象,掩盖了亚裔群体内部的差异。例如,在医疗保健领域,汇总数据显示亚裔美国人比白人寿命长 8 年,但细分数据却揭示出越南裔与华裔之间存在 9.3 - 11.6 年的寿命差距,以及在肥胖、糖尿病和癌症等疾病方面的显著差异。

在这样的背景下,来自斯坦福大学(Stanford University)、哥伦比亚大学(Columbia University)、芝加哥大学(University of Chicago)等机构的研究人员开展了一项旨在实现亚裔美国子群体细分的研究。他们利用维基数据(Wikidata)构建了姓名 - 种族分布数据集,为解决亚裔细分群体差异评估难题提供了新的思路和方法。该研究成果发表在《Scientific Data》上。

研究人员主要采用了以下关键技术方法:首先,利用维基数据这一开源数据库,通过特定的查询语句,获取了来自六个亚洲国家(印度、中国、菲律宾、日本、韩国和越南)约 30.8 万个人的姓名信息;然后,运用 R 语言对数据进行清洗和处理,提取出 25,876 个独特的名字和 18,703 个独特的姓氏;最后,基于这些数据构建条件概率表,并将其应用于 BISG 算法,同时使用电子健康记录(EHR)数据集进行技术验证。

研究结果主要从以下几个方面展开:

  • 与现有方法比较:研究人员将基于维基数据的姓名 - 种族数据与之前研究中使用的社会安全管理局(SSA)姓名列表进行比较。结果发现,对于部分匹配的姓名,维基数据能够成功恢复确定性信息,且部分共享姓名在维基数据中可被概率性表示,这在一定程度上体现了维基数据的优势。但对于不同的亚裔子群体,两种方法各有优劣。例如,在预测中国人、韩国人和越南人时,维基数据方法优于 SSA;而在预测亚裔印度人、菲律宾人和日本人时则相反。综合来看,混合方法能够在一定程度上弥补单一方法的不足。
  • 个体层面种族预测:通过精度 - 召回(PR)曲线评估预测性能,发现维基数据在预测中国和韩国子群体时,在一定召回率范围内能实现更高的精度。同时,不同子群体的预测性能受多种因素影响,如姓氏的普遍性、样本代表性等。在实际应用中,不同的预测方法在控制精度 - 召回权衡方面各有特点,可根据具体需求选择合适的方法。
  • 亚群体层面健康差异预测:研究人员以 2 型糖尿病、高血压、哮喘和抑郁症等疾病为例,利用构建的数据集进行亚群体层面的健康差异预测。结果表明,该数据集能够揭示出亚裔各子群体之间显著的健康差异,而这些差异在汇总的亚裔类别中往往被掩盖。虽然预测方法在捕捉实际子群体患病率的分布和排序方面表现较好,但仍存在对最大子群体差异低估的问题。不过,两种预测方法都能较好地捕捉差异的方向和程度。
  • 平衡验证集结果:研究人员使用与美国总体亚裔子群体比例一致的平衡验证集进行验证,结果显示虽然与主要结果在程度上有所不同,但总体结论相似,进一步验证了研究结果的可靠性。

研究结论和讨论部分强调了该研究的重要意义。研究人员构建的数据集为种族平等研究填补了关键的数据空白,使研究人员、政策制定者和其他从业者能够可靠地揭示六个亚裔子群体之间的显著差异,并利用概率信息提高众多公平驱动干预措施的有效性。同时,研究也指出了自身存在的局限性,如数据集仅涵盖了六个主要亚裔子群体,无法准确预测其他亚裔子群体成员;EHR 验证数据集存在种族记录错误、子群体成员信息不完整等问题;维基数据本身存在偏差、错误和不完整性等。但随着维基数据的不断发展和完善,未来有望进一步提高研究的准确性和可靠性。这项研究为亚裔群体健康差异研究和种族公平政策制定提供了重要的数据支持和方法参考,具有重要的理论和实践价值。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号