ChatGPT 在 2022 年 11 月发布时震惊了全世界。该人工智能(AI)聊天机器人由位于加利福尼亚州旧金山的 OpenAI 创建,采用大型语言模型(LLM),并在互联网上发布的大量文本上进行训练,利用对话式界面,使最新的自然语言处理进展得以广泛访问,能够回答复杂问题、撰写精致的论文和生成源代码。一个显而易见的问题是:这个工具如何改善科学?
文章集:科学与人工智能新时代
在过去的 18 个月里,在纽约市的阿尔弗雷德·P·斯隆基金会和加州红木城的陈-扎克伯格倡议的资助下,我的实验室一直在探索将该技术融入日常任务的方法,例如进行文献综述、修改和撰写学术文本以及编程代码。我们的目标是评估如何安全地使用该技术,以提高科学研究的质量和生产力。在这里,我们强调了一些关键经验教训。
调整你的提示
要有效使用聊天机器人,您需要一个好的提示。这听起来可能很明显,但我一些同事在工具未能回答一个表达不清的问题时,仍然感到沮丧并放弃。这是可以理解的:公众一直受到这些模型是“智能”这一观念的冲击,因此认为它们应该理解您提出的任何问题也是合理的。但事实并非如此,这就是为什么提示工程在该领域迅速发展的原因。
好的提示设计有很多细微差别,但基本原则很简单:
• 清楚你希望模型做什么(使用“总结”或“解释”等命令)。
• 请模型采用一个角色或人设(“你是一名专业的文案编辑”)。
• 提供真实输入和输出的示例,可能涵盖棘手的“边缘”案例,以向模型展示您希望其执行的任务。
• 指定模型应如何回答(“向具备基础表观遗传学知识的人解释”)或甚至确切的输出格式(例如,作为便于分析的 JSON 或 CSV 文件)。
• 可选地,指定一个字数限制,文本是否应使用主动语态或被动语态,以及其他任何要求。请查阅“提示工程快捷参考”以获取更多建议。
ChatGPT 如何在我的学术写作中提供三种帮助
这是我们用来修订手稿摘要的提示,基于 2017 年发布的指南 1 而制定。
您是一位拥有丰富经验的专业编辑,专门处理科学文本。请修改以下手稿的摘要,使其遵循背景-内容-结论的结构。(1)背景部分向读者传达该论文将填补的空白。第一句话通过介绍更广泛的领域来为读者定位。然后,背景逐渐缩小,最终聚焦于研究所回答的开放问题。成功的背景部分将研究的贡献与当前的最新成果区分开,传达文献中缺失的内容(即具体的空白)及其重要性(即具体空白与更广泛背景之间的联系)。 (2)内容部分(例如,“在这里,我们...)首先描述用于填补空白的新方法或途径,然后呈现结果的执行摘要。(3)结论部分解读结果,以回答背景部分末尾提出的问题。结论部分可能还有第二部分,强调这一结论如何推动更广泛的领域发展(例如,“更广泛的意义”)。
Find the right tasks
When considering potential applications, ask yourself how much creativity the task requires, and what could happen if the model steers you wrong. What are the aspects of the task that only a person could contribute, and which are more mechanical — and usually, boring?
Take the literature-review stage of a research project, for instance. The goal of this iterative process is to produce a refined list of articles with a summary of their main ideas. This sounds like the perfect task for a chatbot assistant, and it is — but not at first. Defining a research question involves creative thinking; you need to read papers carefully, identify research gaps, develop a hypothesis and start thinking about how you could address the problem experimentally. You probably want to understand as much as you can about each paper, including its figures, tables and supplementary materials. A chatbot might omit key information and, importantly, could prevent you from drawing creative and logical connections.
Later in the process, however, your goals will be different. At this point, you might want to quickly ‘read’ (that is, summarize) articles that are less directly related to your work. In this case, using a chatbot assistant is less risky.
Our team has found some success using specialized tools (such as SciSpace) to search for articles, assess their relevance and ‘chat’ with the text. But general tools, such as ChatGPT, have been less useful. Whichever platform you choose, use standard search engines as well, to maximize the number of relevant papers that you find.
Write more, read less
In my experience, using a chatbot to write is less risky than using it to read. To have an LLM ‘read’ a paper, you have to trust it to accurately extract the most important points, because you might not read the article yourself. But when using it to write, you have complete control over the output and can catch ‘hallucinations’ — text that is nonsensical or inaccurate — when they occur.
当我开始写一篇稿件时,我已经知道我想说什么,但我常常在撰写文本时需要帮助。在这种情况下,将您所在学科的科学稿件结构规则反馈给聊天机器人是很有用的。作为替代,您可以一开始独立写作,然后使用聊天机器人来修改文本(例如,将上下文–内容–结论结构应用于一个段落),审阅其建议并实施好的建议。当我还是博士后时,我和我的同事们为协作写作框架 Manubot 开发了一个 AI 编辑器。该编辑器采用以人为本的方法来自动化写作过程:一个人首先写文本,LLM修改他们的作品,然后作者审阅这些修改。该工具使用版本控制服务 GitHub 来跟踪文本的哪些部分是用户贡献的,哪些是模型贡献的——这在记录中可能很重要,因为至少有一位《自然》杂志的贡献者曾被错误指控使用聊天机器人撰写他们的稿件。
“显然是 ChatGPT”——审稿人如何指责我科学 fraud
在使用聊天机器人编写源代码时,你可以采用类似的方法:询问LLM获取代码,以解决问题或修复现有的有缺陷的代码。如果你知道你的代码应该做什么(创造性的部分),你需要编写一个提示,以指示模型使用哪种语言和库(机械部分)。然后,你运行代码以查看它是否有效。最糟糕的情况是代码产生错误的结果或传达错误的结论。即使你获得了似乎正确的答案,你也需要仔细检查代码——为此,你需要理解它。
这是一个关键点,特别对于实习生来说:如果你不知道如何做某事,我强烈不建议你使用聊天机器人来代替你完成。
随着LLMs变得越来越强大,它们可以帮助科学家集中精力于工作中富有创造性和挑战性的方面,同时减轻那些较少智力刺激的任务。挑战在于识别那些只有人类能够完成的任务——并认识到LLMs仍然带来的局限性。