深度学习的可解释性方向的研究是不是巨坑?
创建时间:2019-08-18 10:46:44
最后编辑:2019-08-18 10:46:44
(答题时间:2024年9月)
先介绍下我现在的研究方向----LLM内部可解释性(也叫mechanistic interpretability)。LLM可解释性方法分两种,外部可解释性和内部可解释性。外部可解释性的文章把LLM当作一个整体,观察不同input下LLM的输出变化。从2021年开始,mechanistic interpretability的研究工作也越来越多,主流研究内容有三种(更多论文可以在我总结的paper list里看):
circuit analysis:
In-context Learning and Induction Heads
A Mathematical Framework for Transformer Circuits
causal tracing (mainly for information flow):
Locating and Editing Factual Associations in GPT
Dissecting Recall of Factual Associations in Auto-Regressive Language Models
neuron analysis (analyzing neurons in unembedding space)
Transformer Feed-Forward Layers Are Key-Value Memories
Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space
Analyzing Transformers in Embedding Space
除此之外还有Anthropic主要研究的superposition,dictionary learning和SAE:
回到问题本身,可解释性方向的研究肯定是不坑。LLM的可解释性研究是很有用的,因为可以让研究者明白究竟是哪一些输入/模型参数对最终预测有贡献,从而设计更好的模型结构、提升模型的performance/安全性。很多公司、研究人员已经认可了可解释性的重要性,所以近几年mechanistic interpretability的工作也越来越多,发论文也没有比其他领域的难多少。只是由于缺少理论基础,目前没有统一的研究方法/数据集/评估指标,所以进展相对其它领域比较缓慢。我在另一个回答里也讨论了这个问题:大模型LLM领域,有哪些可以作为学术研究方向?。大部分人主要有两个疑问:
a) LLM真有可解释性吗?
b) 研究LLM可解释性有什么用?
对于a),如果你看过mechanistic interpretability的相关研究,答案应该是“有”。至少attention层的head-level和FFN层的neuron-level已经观察到非常多human-interpretable results。
对于b),Anthropic联合创始人Chris Olah认为interpretability和AGI safety是强相关的:Chris Olah’s views on AGI safety — LessWrong。以及Deepmind mechanistic interpretability team leader Neel Nanda的博客:A Longlist of Theories of Impact for Interpretability
总结:个人感觉mechanistic interpretability这个领域很重要,且很有前景。只是目前来看,根据可解释性提升下游任务指标的工作还很少,更多是停留在提供insight这个层面。而大部分公司的需求是提升下游任务指标,所以找工作估计没有研究alignment的容易。
更多回答
--- Update: Nov 2022 -----
时隔两年,突然想Update一下这个回答。
TL;DR: 对于想找工业界职位的新PhD吧,只对着可解释性这个东西做路会走的非常窄。走宽一点,不管是理论上还是应用上,用一些在这个领域发现的insights去解决一些具体的问题。
这个方向好找实习吗?
今年PhD第四年了,准备找工业界的职位。先来讲讲找实习吧。做可解释性的公司/组其实就那么几个,特别那些startup我都可以把名字背下来。
Google和Microsoft. 狗家倒是做这方面research比较多。我在狗家实习了两次,都是和鲁棒性相关的。终于在今年实习结束,狗家一个组主动reach out说想offer一个internship,和可解释的图神经网络相关。但是无奈我CPT的时间已经用完了不能再实习了。Microsoft Research 我曾经面过一个组是和ML Fairness,Differential Privacy相关的(关于这两个领域为什么和可解释性相关,去看看别的post吧, hh先不写了不然又是另一个问题的答案了)但是我这方面确实没什么工作,最后被拒了。Microsft还有几个人也是做这方面的,但是其中我认识的一个明年也离职回学术界了。
Meta. 我从未面过Meta和这个topic相关的组,我也不知道我能去Meta在这个topic上做些什么。算了吧,都跌成这个样子了。
Amazon和 Apple. Amazon应该是这个领域工业化的leader之一吧。Sagemaker被运用的很广泛。我甚至看到有些公司的JD上写着“会用Sagemaker”。 Again,从未去过Amazon,他们也从未理过我....Apple 最近面过一个欧洲&US的Apple Watch组做这方面,主要是做visualization。听到visualization算是可解释性有些researcher可能要生气了,but,again,学术界和工业界是有gap的。况且,visualization确实是一个非常有效的解释手段呀。
Startup. 这个方向的startup真的是可以两只手数过来。Fiddler AI, Truera (founded by my advisor), H2O, etc. 我就不继续评价了,my comment will definitely be biased so I won't make one.
总结来说,我觉得PhD期间找实习,对着可解释性方向找还是挺难的。如果是想做research intern,这方面还是狗和Microsft好一点。
这个方向好找全职吗?
我在找啊,好难啊,经济衰退,Hiring Freeze,等我找到了我来回答一下。
这个方向好发Paper吗?
我觉得挺好发的,我每年ICLR,NeurIPS,ICML都会在pool里看到一大堆这个方向的paper。但是那些没有理论基础的,没有认真思考可解释性工具和模型之间关系的和纯纯纯做visualization的,对我来说可能不太感兴趣。
最后,列举一下我觉得做可解释性可以关注的领域吧,都挺有趣而且挺有启发的:
Adversarial Robustness
Network Verification
Learning Theory -> Generalization Gap -> Smoothness of Loss Landscape
Fairness and Bias
Differential Privacy
Combinatorial Problem / Solver
Smooth Activation Functions
Anamoly Detection
RE:评论区的问题
谢谢大家的提问哈,我一般隔一段时间上一下知乎。好多问题挺好的,但是也有点太空和太大啦,我也不知道怎么精简且准确的回答。最近在找工作,还在投paper,还在写rebuttal,可能实在难以给出准确的答案。见谅哈。
------- 原答案 ------------------
利益相关:
- CMU PhD二年级,研究方向为深度学习的可解释性(Explainability) 和鲁棒性 (Robustness) from Accountable System Lab
- past Machine Learning Engineering Intern at Truera, 一个提供深度学习可解释工具的初创公司。(2022更新: 嗯,engineering-wise也freeze了吧)
前言:这个问题感觉我一直想回答,但是没有时间来着。最近有了一些时间,而且看了其他老师/学者的回答,我觉得大部分答案已经很好的回答了题主的问题,例如
老师的回答。我的回答更倾向于,更新一下大家对于可解释性最前沿工作的认知,同时介绍一下这个领域与工业界结合的实例,让这个领域显得不是那么的空中楼阁。总结:可解释性不是一个入门门槛很低的方向,但是是一个很有趣的方向。从NeurIPS 2019之后,这个方向在理论原理上已经和鲁棒性(Robustness)有越来越大的交叉,在实践上和隐私 (Privacy),公平(Fairness)以及泛化(Generality)也产生了更多的交叉。在工业界落地上,有很多大公司,例如Amazon的SageMaker,都已经开始投入产品使用。许多初创公司,例如Fiddler和Truera,正在帮助传统行业将模型可解释性应用在简历审核,银行金融等等领域。
广告:对可解释性在模型robustness,privacy,和fairness方面结合更感兴趣的读者,可以查看我们在AAAI-20 上做的Tutorial: AAAI-21 Tutorial From Explanability to Model Quality and Back Again
一. 评估可解释性
首先我想补充一@Riroaki 的回答提到的观点:可解释性缺乏评估方式。首先,我可以很高兴和大家update一下,在最近几年的NeurIPS,ICLR,ICML,和AISTAT上,可解释性的评估方式正在越来越趋于完善和统一。特别的,在评估Feature Attribution方面,我们有:
- 基于Efficiency(Shapely Value中的那个efficiency)的Evaluation:Sensitivity-N
- 基于,Attribution是否能很好的对原model进行线性逼近,的Evaluation: Infidelity, Proportionality, AOPC,... (这方面work很多)
- 基于Attribution是否faithful to 模型的weights的Evaluation:Sanity Check (和他们和后续work,NeurIPS2020的一篇,名字我记不得了)
- 基于Attribution在对抗攻击中的robustness:smoothed geometry, fair-washing, attribution attack, ...(这部分也不少,是当下热门方向)
- 剩下还有一些完全是CV数据集中才有的evaluation,但是(个人认为)缺乏相应的合理的motivation或者criteria,我就不介绍了
小结:随着对可解释性评估方法的发展,我们对:什么是Faithful和Accurate的解释,理解的更加深入和具体
二. 可解释性在除了CV方向之外的应用
由于CV数据在做数据可视化方面面临的难题较少,而且模型大多都是Feed-forward的结构,因此很多paper都倾向于把一些CV数据集,例如ImageNet,CIFAR-10和MNIST,当作验证可解释性工作的实验对象。但是实际上,在AAAI,ICLR和ACL等会议上,已经有很多工作把可解释性与强化学习 (Reinforcement Learning) ,NLP,还有时间序列(Time Series)结合起来了。
在 Explainability + Deep RL方面:Survey & Counterfactual Analysis,SAFAR, Action Reconstruction
在Explainability + NLP 方面:Path Influence, Contextualization in BERT, BERT geometry
在Explainability + Time Series 方面:Benchmarking
三. 可解释性与(对抗)鲁棒性
大量的证据表明,如果你的可解释性工具是faithful的,那么它所return的attribution或者其他相应的结果,是真实的反应model的output geometry的。如果一个faithful的可解释性工具不能返回一个很好的(可能是可视化方面看上去很清晰,或者是和prior bias很接近的)解释,很大程度上这不是由于可解释性工具存在问题,而是模型存在问题。特别的,在对抗鲁棒性 (adversarial robustness)方面,我们发现一个robust的model通常会比普通的模型更容易解释(得到的attribution map会更加清晰和容易理解):On the Connection Between Adversarial Robustness and Saliency Map Interpretability, Adversarial Examples Are Not Bugs, They Are Features, https://openreview.net/pdf?id=H1lZJpVFvr等等。。。
特别的,除了大家所熟知的,通过PGD等adversarial attack来定义的robustness,另一种更加strong的verifiable robustness,所得到的模型也会更加可解释(看这个paper的appendix中的saliency map的visualization):Provable Robustness of ReLU networks via Maximization of Linear Region。 (这里还有一个我们最近在verifiable robustness上的工作,但是正在整理放到arxiv上,所以之后为大家补充)
四. 可解释性与工业界
可解释性与工业级模型有机结合的方式之一,就是反哺模型优化。在这里,我们说的模型优化不仅仅是优化单一的某个指标,比如准确率(这个其实是最naive的一个指标,实际工程过程中这都可能不是我们最首选的指标,但是因为这个比较普及,我就以这个为例),而是一系列,涉及模型的privacy, bias, stability, generalization, segament analysis, etc. 的指标。 这一系列优化都需连续的,可视化的,可进行human-model interaction的理论和平台进行支撑。特别的,在信用审核,贷款审核和保险计算等等一系列和金融行业相关的事情上,模型的可解释性保障了公司和客户的有效交流。例如,公司可以根据可解释性工具,提供给用户最直接最简单的降低自己保险月供的方案。除了这个之外,在医疗领域和自动驾驶,可解释性工具也是提供 Trustworthy AI必不可少的一环。
谢邀。关于这个问题,简单说三个方面。
1. 我跟不少学者聊过,解释性方向发文章确实比其他方向困难很多。这个方向上,随便做出些结果容易,但是做出代表意义的成果不容易。更何况,即使做出不错的成果,也不意味着就可以顺利发表。目前的审稿人耐心和责任心都在下降,如果不做主流题目,步子走大了,审稿人无法在十几分钟内看明白,估计就麻烦了。
2. 可解释性也分很多子方向,有老问题也有新问题,有严谨规范的研究,也有不严谨的。总体来说有做可视化的,有做语义层面解释性的,也有做数学层面去解释神经网络内在机理的。虽说解释性研究比较新,但是这些方向中有一些已经很老了,已经遇到了一定瓶颈。但是还有很多新兴问题需要定义和解决,需要人们去定义研究规范、评价规则,使得研究更加严谨规范。
3. 所谓“坑”,往往是从功利的角度来看的——是否可以高效地出论文,而不是从科学发展的角度来说的。归根到底这是一个科研观的问题。任何人都有毕业或评职称的压力,但或许跳坑是科研的本分吧。基本常识大家都明白,知道有些问题目前很难做,但是从学科发展来看,只有这些坑才是真正值得去做的问题。不少学者已经对深度学习的前途表示出深深的忧虑和茫然,但是这些苦恼代表了未来的机会,这也是很多人在工业界高薪诱惑下,依然留在学术界的原因——虽然大部分人最终没有爬坑的能力。