深度学习的可解释性方向的研究是不是巨坑?

本人是19fall入学phd一枚,即将决定未来的研究方向,现在对深度学习的可解释性方向有点兴趣,但网上听说这个方向是巨坑,所以想听一下各位大神的意见
被浏览
865,159

创建时间:2019-08-18  10:46:44

最后编辑:2019-08-18  10:46:44

95 人赞同了该回答

(答题时间:2024年9月)

先介绍下我现在的研究方向----LLM内部可解释性(也叫mechanistic interpretability)。LLM可解释性方法分两种,外部可解释性和内部可解释性。外部可解释性的文章把LLM当作一个整体,观察不同input下LLM的输出变化。从2021年开始,mechanistic interpretability的研究工作也越来越多,主流研究内容有三种(更多论文可以在我总结的paper list里看):

circuit analysis:

In-context Learning and Induction Heads

A Mathematical Framework for Transformer Circuits

How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model

causal tracing (mainly for information flow):

Locating and Editing Factual Associations in GPT

Dissecting Recall of Factual Associations in Auto-Regressive Language Models

A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis

neuron analysis (analyzing neurons in unembedding space)

Transformer Feed-Forward Layers Are Key-Value Memories

Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

Analyzing Transformers in Embedding Space

除此之外还有Anthropic主要研究的superposition,dictionary learning和SAE:

Transformer Circuits Thread


回到问题本身,可解释性方向的研究肯定是不坑。LLM的可解释性研究是很有用的,因为可以让研究者明白究竟是哪一些输入/模型参数对最终预测有贡献,从而设计更好的模型结构、提升模型的performance/安全性。很多公司、研究人员已经认可了可解释性的重要性,所以近几年mechanistic interpretability的工作也越来越多,发论文也没有比其他领域的难多少。只是由于缺少理论基础,目前没有统一的研究方法/数据集/评估指标,所以进展相对其它领域比较缓慢。我在另一个回答里也讨论了这个问题:大模型LLM领域,有哪些可以作为学术研究方向?。大部分人主要有两个疑问:

a) LLM真有可解释性吗?

b) 研究LLM可解释性有什么用?

对于a),如果你看过mechanistic interpretability的相关研究,答案应该是“有”。至少attention层的head-level和FFN层的neuron-level已经观察到非常多human-interpretable results。

对于b),Anthropic联合创始人Chris Olah认为interpretability和AGI safety是强相关的:Chris Olah’s views on AGI safety — LessWrong。以及Deepmind mechanistic interpretability team leader Neel Nanda的博客:A Longlist of Theories of Impact for Interpretability


总结:个人感觉mechanistic interpretability这个领域很重要,且很有前景。只是目前来看,根据可解释性提升下游任务指标的工作还很少,更多是停留在提供insight这个层面。而大部分公司的需求是提升下游任务指标,所以找工作估计没有研究alignment的容易。

更多回答