-
生物通官微
陪你抓住生命科技
跳动的脉搏
打开“黑匣子”,构建更好的人工智能模型
【字体: 大 中 小 】 时间:2023年01月13日 来源:MIT麻省理工
编辑推荐:
Stefanie Jegelka试图了解机器学习模型的行为,以帮助研究人员建立更健壮的模型,用于生物学、计算机视觉、优化等领域的应用。
当深度学习模型在现实世界中出现时,也许是为了从信用卡活动中检测金融欺诈,或者在医学图像中识别癌症,它们通常能够胜过人类。
但是这些深度学习模型究竟在学习什么呢?例如,一个训练用来在临床图像中发现皮肤癌的模型,是否真的学会了癌变组织的颜色和纹理,还是它标记了一些其他的特征或模式?
这些强大的机器学习模型通常基于人工神经网络,该网络可以拥有数百万个节点,这些节点可以处理数据来进行预测。由于其复杂性,研究人员通常称这些模型为“黑盒”,因为即使是构建它们的科学家也不了解背后发生的一切。
Stefanie Jegelka并不满足于“黑盒子”的解释。作为麻省理工学院电气工程与计算机科学系的新终身副教授,Jegelka正在深入研究深度学习,以了解这些模型可以学习什么,它们的行为方式,以及如何将特定的先验信息构建到这些模型中。
“归根结底,深度学习模型能学到什么取决于很多因素。但是建立与实践相关的理解将帮助我们设计更好的模型,也帮助我们理解它们内部发生了什么,这样我们就知道什么时候可以部署模型,什么时候不能。这是至关重要的,”Jegelka说,他也是计算机科学与人工智能实验室(CSAIL)和数据、系统与社会研究所(IDSS)的成员。
当输入数据是图形形式时,Jegelka对优化机器学习模型特别感兴趣。图数据提出了特定的挑战:例如,数据中的信息既包括关于单个节点和边的信息,也包括结构——什么连接到什么。此外,图具有数学对称性,机器学习模型需要尊重这些对称性,例如,相同的图总是会导致相同的预测。在机器学习模型中构建这样的对称性通常并不容易。
以分子为例。分子可以用图形表示,顶点对应原子,边对应原子之间的化学键。制药公司可能希望使用深度学习来快速预测许多分子的性质,从而缩小他们必须在实验室中进行物理测试的数量。
Jegelka研究了建立数学机器学习模型的方法,该模型可以有效地将图形数据作为输入,并输出其他东西,在这种情况下,预测分子的化学性质。这尤其具有挑战性,因为一个分子的性质不仅由它内部的原子决定,而且还由它们之间的连接决定。
设计这些模型变得更加困难,因为用于训练它们的数据往往与模型实际看到的数据不同。也许该模型是使用小分子图或交通网络进行训练的,但一旦部署,它看到的图会更大或更复杂。
在这种情况下,研究人员可以期望这个模型学习什么,如果现实世界的数据不同,它在实践中仍然有效吗?
“由于计算机科学中的一些困难问题,你的模型不可能学习所有东西,但你能学到什么,不能学到什么,取决于你如何设置模型。”
Jegelka将对算法和离散数学的热情与对机器学习的热情结合起来,解决了这个问题。
从蝴蝶到生物信息学
Jegelka在德国的一个小镇长大,上高中时就对科学产生了兴趣;一位支持她的老师鼓励她参加国际科学竞赛。她和来自美国和香港的队友们用三种语言创建了一个关于蝴蝶的网站,并因此获奖。
“在我们的项目中,我们在当地一所应用科学大学用扫描电子显微镜拍摄了翅膀的图像。我也有机会使用梅赛德斯-奔驰的高速摄像机——这种摄像机通常拍摄内燃机——我用它来捕捉蝴蝶翅膀运动的慢动作视频。那是我第一次真正接触科学和探索,”她回忆道。
由于对生物学和数学都很感兴趣,Jegelka决定在Tübingen大学和德克萨斯大学奥斯汀分校学习生物信息学。在大学期间,她有几次机会进行研究,包括在乔治城大学(Georgetown University)的计算神经科学实习,但她不确定该从事什么职业。
当她回到大学的最后一年,Jegelka搬去和两个室友住在一起,他们在Tübingen的马克斯·普朗克研究所(Max Planck Institute)担任研究助理。
“他们在研究机器学习,这对我来说听起来真的很酷。我要写我的学士论文,所以我问研究所他们是否有一个项目给我。我开始在马克斯·普朗克研究所研究机器学习,我很喜欢。我在那里学到了很多东西,这是一个研究的好地方,”她说。
她留在马克斯·普朗克研究所完成硕士论文,然后在马克斯·普朗克研究所和瑞士联邦理工学院攻读机器学习博士学位。
在读博士期间,她探索了离散数学中的概念如何帮助改进机器学习技术。
教学模式学习
Jegelka对机器学习了解得越多,她就越对理解模型行为以及如何引导这种行为的挑战感兴趣。
“你可以用机器学习做很多事情,但前提是你有正确的模型和数据。它不只是一个黑盒的东西,你把它扔到数据上,它就能工作。你实际上必须考虑它,它的属性,以及你想让模型学习和做什么,”她说。
在加州大学伯克利分校(University of California at Berkeley)完成博士后学业后,Jegelka卡迷上了研究,并决定投身学术界。她于2015年加入麻省理工学院担任助理教授。
“从一开始,我就非常喜欢麻省理工学院,因为这里的人非常关心研究和创造力。这就是我最欣赏麻省理工学院的地方。这里的人非常重视研究的原创性和深度。”
对创造力的关注使杰格尔卡能够探索广泛的主题。
她与麻省理工学院的其他教员合作,研究机器学习在生物学、成像、计算机视觉和材料科学中的应用。
但真正驱动Jegelka的是探索机器学习的基础,以及最近的鲁棒性问题。通常,一个模型在训练数据上表现良好,但当它部署在稍有不同的数据上时,其性能就会恶化。她说,将先验知识构建到模型中可以使其更加可靠,但了解模型需要哪些信息才能成功以及如何将其构建进去并不是那么简单。
她还在探索提高用于图像分类的机器学习模型性能的方法。
从手机上的面部识别系统到社交媒体上识别虚假账户的工具,图像分类模型无处不在。这些模型需要大量的数据进行训练,但由于人工标记数百万张图像的成本很高,研究人员通常使用未标记的数据集来预训练模型。
然后,这些模型在稍后针对特定任务进行微调时重用它们已经学习到的表示。
理想情况下,研究人员希望模型在预训练期间尽可能多地学习,这样它就可以将这些知识应用到下游任务中。但在实践中,这些模型通常只学习一些简单的相关性——比如一张图像有阳光,另一张有阴影——并使用这些“捷径”来对图像进行分类。
“我们证明了这是‘对比学习’中的一个问题,无论从理论上还是从经验上来说,这都是预训练的标准技术。但是我们还说明,您可以通过修改向模型显示的数据类型来影响模型将学习表示的信息类型。这是理解模型在实践中实际会做什么的第一步,”Jegelka说。
研究人员仍然不了解深度学习模型内部发生的一切,也不了解它们如何影响模型的学习内容和行为方式的细节,但Jegelka期待继续探索这些主题。
“通常在机器学习中,我们在实践中看到一些事情发生,我们试图从理论上理解它。这是一个巨大的挑战。你想要建立一个与你在实践中看到的相匹配的理解,这样你就可以做得更好。我们对这一点的理解还刚刚开始,”她说。
在实验室之外,Jegelka是音乐、艺术、旅行和骑自行车的爱好者。但最近,她喜欢把大部分空闲时间都花在和学龄前女儿在一起。