深度学习的可解释性方向的研究是不是巨坑？

Question

人体描边大师

深度学习（Deep Learning）

深度学习的可解释性方向的研究是不是巨坑？

本人是19fall入学phd一枚，即将决定未来的研究方向，现在对深度学习的可解释性方向有点兴趣，但网上听说这个方向是巨坑，所以想听一下各位大神的意见

被浏览

865,159

创建时间：2019-08-18 10:46:44

最后编辑：2019-08-18 10:46:44

查看全部 61 个回答

95 人赞同了该回答

发布于 2024-02-24 22:32 ，编辑于 2024-09-09 04:02・IP 属地英国

（答题时间：2024年9月）

先介绍下我现在的研究方向----LLM内部可解释性（也叫mechanistic interpretability）。LLM可解释性方法分两种，外部可解释性和内部可解释性。外部可解释性的文章把LLM当作一个整体，观察不同input下LLM的输出变化。从2021年开始，mechanistic interpretability的研究工作也越来越多，主流研究内容有三种（更多论文可以在我总结的paper list里看）：

circuit analysis：

In-context Learning and Induction Heads

A Mathematical Framework for Transformer Circuits

How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model

causal tracing (mainly for information flow)：

Locating and Editing Factual Associations in GPT

Dissecting Recall of Factual Associations in Auto-Regressive Language Models

A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis

neuron analysis (analyzing neurons in unembedding space)

Transformer Feed-Forward Layers Are Key-Value Memories

Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

Analyzing Transformers in Embedding Space

除此之外还有Anthropic主要研究的superposition，dictionary learning和SAE：

Transformer Circuits Thread

回到问题本身，可解释性方向的研究肯定是不坑。LLM的可解释性研究是很有用的，因为可以让研究者明白究竟是哪一些输入/模型参数对最终预测有贡献，从而设计更好的模型结构、提升模型的performance/安全性。很多公司、研究人员已经认可了可解释性的重要性，所以近几年mechanistic interpretability的工作也越来越多，发论文也没有比其他领域的难多少。只是由于缺少理论基础，目前没有统一的研究方法/数据集/评估指标，所以进展相对其它领域比较缓慢。我在另一个回答里也讨论了这个问题：大模型LLM领域，有哪些可以作为学术研究方向？。大部分人主要有两个疑问：

a) LLM真有可解释性吗？

b) 研究LLM可解释性有什么用？

对于a)，如果你看过mechanistic interpretability的相关研究，答案应该是“有”。至少attention层的head-level和FFN层的neuron-level已经观察到非常多human-interpretable results。

对于b)，Anthropic联合创始人Chris Olah认为interpretability和AGI safety是强相关的：Chris Olah’s views on AGI safety — LessWrong。以及Deepmind mechanistic interpretability team leader Neel Nanda的博客：A Longlist of Theories of Impact for Interpretability

总结：个人感觉mechanistic interpretability这个领域很重要，且很有前景。只是目前来看，根据可解释性提升下游任务指标的工作还很少，更多是停留在提供insight这个层面。而大部分公司的需求是提升下游任务指标，所以找工作估计没有研究alignment的容易。

发布于 2024-02-24 22:32 ，编辑于 2024-09-09 04:02・IP 属地英国

这个方向好找实习吗？

今年PhD第四年了，准备找工业界的职位。先来讲讲找实习吧。做可解释性的公司/组其实就那么几个，特别那些startup我都可以把名字背下来。

Google和Microsoft. 狗家倒是做这方面research比较多。我在狗家实习了两次，都是和鲁棒性相关的。终于在今年实习结束，狗家一个组主动reach out说想offer一个internship，和可解释的图神经网络相关。但是无奈我CPT的时间已经用完了不能再实习了。Microsoft Research 我曾经面过一个组是和ML Fairness，Differential Privacy相关的（关于这两个领域为什么和可解释性相关，去看看别的post吧， hh先不写了不然又是另一个问题的答案了）但是我这方面确实没什么工作，最后被拒了。Microsft还有几个人也是做这方面的，但是其中我认识的一个明年也离职回学术界了。

Meta. 我从未面过Meta和这个topic相关的组，我也不知道我能去Meta在这个topic上做些什么。算了吧，都跌成这个样子了。

Amazon和 Apple. Amazon应该是这个领域工业化的leader之一吧。Sagemaker被运用的很广泛。我甚至看到有些公司的JD上写着“会用Sagemaker”。 Again，从未去过Amazon，他们也从未理过我....Apple 最近面过一个欧洲&US的Apple Watch组做这方面，主要是做visualization。听到visualization算是可解释性有些researcher可能要生气了，but，again，学术界和工业界是有gap的。况且，visualization确实是一个非常有效的解释手段呀。

Startup. 这个方向的startup真的是可以两只手数过来。Fiddler AI, Truera (founded by my advisor), H2O, etc. 我就不继续评价了，my comment will definitely be biased so I won't make one.

总结来说，我觉得PhD期间找实习，对着可解释性方向找还是挺难的。如果是想做research intern，这方面还是狗和Microsft好一点。

这个方向好找全职吗？

我在找啊，好难啊，经济衰退，Hiring Freeze，等我找到了我来回答一下。

这个方向好发Paper吗？

我觉得挺好发的，我每年ICLR，NeurIPS，ICML都会在pool里看到一大堆这个方向的paper。但是那些没有理论基础的，没有认真思考可解释性工具和模型之间关系的和纯纯纯做visualization的，对我来说可能不太感兴趣。

最后，列举一下我觉得做可解释性可以关注的领域吧，都挺有趣而且挺有启发的：

Adversarial Robustness

Network Verification

Learning Theory -> Generalization Gap -> Smoothness of Loss Landscape

Fairness and Bias

Differential Privacy

Combinatorial Problem / Solver

Smooth Activation Functions

Anamoly Detection

RE：评论区的问题

谢谢大家的提问哈，我一般隔一段时间上一下知乎。好多问题挺好的，但是也有点太空和太大啦，我也不知道怎么精简且准确的回答。最近在找工作，还在投paper，还在写rebuttal，可能实在难以给出准确的答案。见谅哈。

------- 原答案 ------------------

利益相关：

CMU PhD二年级，研究方向为深度学习的可解释性(Explainability) 和鲁棒性 (Robustness) from Accountable System Lab
past Machine Learning Engineering Intern at Truera, 一个提供深度学习可解释工具的初创公司。（2022更新: 嗯，engineering-wise也freeze了吧）

前言：这个问题感觉我一直想回答，但是没有时间来着。最近有了一些时间，而且看了其他老师/学者的回答，我觉得大部分答案已经很好的回答了题主的问题，例如

@Qs.Zhang张拳石

老师的回答。我的回答更倾向于，更新一下大家对于可解释性最前沿工作的认知，同时介绍一下这个领域与工业界结合的实例，让这个领域显得不是那么的空中楼阁。

总结：可解释性不是一个入门门槛很低的方向，但是是一个很有趣的方向。从NeurIPS 2019之后，这个方向在理论原理上已经和鲁棒性（Robustness）有越来越大的交叉，在实践上和隐私（Privacy），公平（Fairness）以及泛化（Generality）也产生了更多的交叉。在工业界落地上，有很多大公司，例如Amazon的SageMaker，都已经开始投入产品使用。许多初创公司，例如Fiddler和Truera，正在帮助传统行业将模型可解释性应用在简历审核，银行金融等等领域。

广告：对可解释性在模型robustness，privacy，和fairness方面结合更感兴趣的读者，可以查看我们在AAAI-20 上做的Tutorial： AAAI-21 Tutorial From Explanability to Model Quality and Back Again

一. 评估可解释性

首先我想补充一@Riroaki 的回答提到的观点：可解释性缺乏评估方式。首先，我可以很高兴和大家update一下，在最近几年的NeurIPS，ICLR，ICML，和AISTAT上，可解释性的评估方式正在越来越趋于完善和统一。特别的，在评估Feature Attribution方面，我们有：

基于Efficiency（Shapely Value中的那个efficiency）的Evaluation：Sensitivity-N
基于，Attribution是否能很好的对原model进行线性逼近，的Evaluation: Infidelity, Proportionality, AOPC,... (这方面work很多)
基于Attribution是否faithful to 模型的weights的Evaluation：Sanity Check (和他们和后续work，NeurIPS2020的一篇，名字我记不得了）
基于Attribution在对抗攻击中的robustness：smoothed geometry, fair-washing, attribution attack, ...(这部分也不少，是当下热门方向）
剩下还有一些完全是CV数据集中才有的evaluation，但是（个人认为）缺乏相应的合理的motivation或者criteria，我就不介绍了

小结：随着对可解释性评估方法的发展，我们对：什么是Faithful和Accurate的解释，理解的更加深入和具体

二. 可解释性在除了CV方向之外的应用

由于CV数据在做数据可视化方面面临的难题较少，而且模型大多都是Feed-forward的结构，因此很多paper都倾向于把一些CV数据集，例如ImageNet，CIFAR-10和MNIST，当作验证可解释性工作的实验对象。但是实际上，在AAAI，ICLR和ACL等会议上，已经有很多工作把可解释性与强化学习 (Reinforcement Learning) ，NLP，还有时间序列(Time Series)结合起来了。

在 Explainability + Deep RL方面：Survey & Counterfactual Analysis，SAFAR， Action Reconstruction

在Explainability + NLP 方面：Path Influence, Contextualization in BERT, BERT geometry

在Explainability + Time Series 方面：Benchmarking

三. 可解释性与（对抗）鲁棒性

大量的证据表明，如果你的可解释性工具是faithful的，那么它所return的attribution或者其他相应的结果，是真实的反应model的output geometry的。如果一个faithful的可解释性工具不能返回一个很好的（可能是可视化方面看上去很清晰，或者是和prior bias很接近的）解释，很大程度上这不是由于可解释性工具存在问题，而是模型存在问题。特别的，在对抗鲁棒性 (adversarial robustness)方面，我们发现一个robust的model通常会比普通的模型更容易解释（得到的attribution map会更加清晰和容易理解）：On the Connection Between Adversarial Robustness and Saliency Map Interpretability， Adversarial Examples Are Not Bugs, They Are Features， https://openreview.net/pdf?id=H1lZJpVFvr等等。。。

特别的，除了大家所熟知的，通过PGD等adversarial attack来定义的robustness，另一种更加strong的verifiable robustness，所得到的模型也会更加可解释（看这个paper的appendix中的saliency map的visualization）：Provable Robustness of ReLU networks via Maximization of Linear Region。（这里还有一个我们最近在verifiable robustness上的工作，但是正在整理放到arxiv上，所以之后为大家补充）

四. 可解释性与工业界

可解释性与工业级模型有机结合的方式之一，就是反哺模型优化。在这里，我们说的模型优化不仅仅是优化单一的某个指标，比如准确率（这个其实是最naive的一个指标，实际工程过程中这都可能不是我们最首选的指标，但是因为这个比较普及，我就以这个为例），而是一系列，涉及模型的privacy, bias, stability, generalization, segament analysis, etc. 的指标。这一系列优化都需连续的，可视化的，可进行human-model interaction的理论和平台进行支撑。特别的，在信用审核，贷款审核和保险计算等等一系列和金融行业相关的事情上，模型的可解释性保障了公司和客户的有效交流。例如，公司可以根据可解释性工具，提供给用户最直接最简单的降低自己保险月供的方案。除了这个之外，在医疗领域和自动驾驶，可解释性工具也是提供 Trustworthy AI必不可少的一环。

谢邀。关于这个问题，简单说三个方面。
1. 我跟不少学者聊过，解释性方向发文章确实比其他方向困难很多。这个方向上，随便做出些结果容易，但是做出代表意义的成果不容易。更何况，即使做出不错的成果，也不意味着就可以顺利发表。目前的审稿人耐心和责任心都在下降，如果不做主流题目，步子走大了，审稿人无法在十几分钟内看明白，估计就麻烦了。
2. 可解释性也分很多子方向，有老问题也有新问题，有严谨规范的研究，也有不严谨的。总体来说有做可视化的，有做语义层面解释性的，也有做数学层面去解释神经网络内在机理的。虽说解释性研究比较新，但是这些方向中有一些已经很老了，已经遇到了一定瓶颈。但是还有很多新兴问题需要定义和解决，需要人们去定义研究规范、评价规则，使得研究更加严谨规范。
3. 所谓“坑”，往往是从功利的角度来看的——是否可以高效地出论文，而不是从科学发展的角度来说的。归根到底这是一个科研观的问题。任何人都有毕业或评职称的压力，但或许跳坑是科研的本分吧。基本常识大家都明白，知道有些问题目前很难做，但是从学科发展来看，只有这些坑才是真正值得去做的问题。不少学者已经对深度学习的前途表示出深深的忧虑和茫然，但是这些苦恼代表了未来的机会，这也是很多人在工业界高薪诱惑下，依然留在学术界的原因——虽然大部分人最终没有爬坑的能力。

查看全部 61 个回答

深度学习的可解释性方向的研究是不是巨坑？

更多回答

这个方向好找实习吗？