1. 文章概述
GLLM 是一类用于处理和生成文本的模型,类似于强大的自动完成工具。生成式预训练 Transformer (GPT) 模型是最常见的 GLLM 类型。GLLM 的通用功能还使它们能够在很少或没有训练数据的情况下完成许多任务,从而节省大量时间和资源。
例如,Hassan 等人(2019 年)在大量金融电话。。数据集上训练了一种算法,以识别与。。风险相关的内容。实现这一目标是一项具有挑战性且耗时的任务。相比之下,最先进的 GLLM(例如 GPT-4)可以通过简单地向其展示。。剪辑并询问它是否涉及。。风险来直接解决此问题(即“零样本”),如下图所示。较小的模型(例如 GPT-3 或 Llama2)也可以通过适当的指令或训练实现类似的结果。
此外,GLLM 的大小赋予它们一定的推理能力和对世界知识的理解,帮助它们解决难以自动化的问题。
总之,GLLM 可以帮助研究人员更轻松地分析文本数据并研究新主题。
尽管 GLLM 功能强大,但它们也有局限性,并带来了新的挑战。GLLM 的自然语言属性使它们看起来像一个能干的人在工作。然而,即使是最好的 GPT 模型也会犯错,不能保证给出有意义的答案,尤其是在直接使用时。它们的构造有效性需要仔细评估,就像其他机器学习方法一样。此外,GLLM 的规模很大,这会使它们速度慢、成本高、难以控制。为了克服这些限制并充分发挥 GLLM 的潜力,我们需要以新的方式工作和思考。
然而,GLLM 的迅速流行伴随着缺乏如何在学术研究中使用这些模型的指导。本工作论文提供了介绍(基本原理和与其他方法的比较)、应用框架、案例研究和详细讨论,以帮助研究人员在其项目中有效地采用和评估 GLLM。我们暂时跳过技术方面,专注于第一部分和最后一部分。
2. 生成式大型语言模型
GLLM 是一类可以处理和生成自然语言的机器学习模型,最著名的例子是 OpenAI 的 ChatGPT:你向 ChatGPT 提出一个问题,它会给你一个答案。
GLLM 的关键创新在于其生成能力,其任务是根据前一个标记预测(即生成)下一个标记,类似于打字时的自动完成。
一个 token 。。一个单词、单词的一部分或一个字符。例如,ChatGPT 会将文本“Baseball is fun!”分解为 token:“Base”、“ball”、“is”、“fun”、“!”。GLLM 的初始输入称为提示,结果称为补全。提示和补全都是 token 的集合,模型会逐一预测补全中的每个 token。
聚焦GPT模型,目前有很多不同的实现,例如ChatGPT、GPT-3、GPT-4、Gemini(Bard)、Claude、(Code)Llama2、CodeLlama、Phi-2等,这些模型主要的区别在于参数大小、微调方法、以及可用性。
01
参数大小:决定了模型的开箱即用能力,但要以成本和速度为代价。
02
微调方法:确定模型如何响应以及模型擅长哪些类型的任务。例如,ChatGPT 模型经过微调,可以像人类助手一样响应命令,而 CodeLlama 则专门针对生成代码进行了微调。
03
可用性:确定模型是否可以在本地运行或只能通过第三方服务访问。
与 BERT 的比较
最著名的两个大型语言模型是 GPT 和 BERT。它们都是利用 Transformer 架构及其迁移学习功能的文本分析方法。
BERT 模型是更广泛的机器学习流程中一个强大的构建块。例如,Huang 等人 (2023) 使用 BERT 模型来表示财务文档,然后将其输入到标准机器学习分类器中进行情绪分类。
相比之下,GLLM 是独立的,给定一个自然语言提示,模型会生成一个补全,研究人员会解析该补全以得出结论。例如,Lopez-Lira 和 Tang (2023) 通过向 ChatGPT 展示一个新闻标题并询问“这个标题对股价是好是坏?如果是好消息,请回答是;如果是坏消息,请回答否;如果不确定,请回答未知”来对新闻情绪进行分类。然后,他们解析了 ChatGPT 的响应以确定情绪分数。
范围
预训练模型
应用
任务差异
谷氨酰胺磷酸酶
很多
单向自回归
提示
专注于基于生成的任务
BERT
许多
双向掩蔽任务
微调
专注于理解任务(基于生成的任务)
借用网上的一个比喻:BERT的预训练任务类似完形填空,模型知道两边的单词,预测中间的单词。GPT类似阅读理解,模型知道问题,预测答案。
优势
缺点
谷氨酰胺磷酸酶
更易于使用,因为它们通常更强大并且不需要或只需要很少的训练数据;更灵活,更容易适应各种任务。
扩建成本高
BERT
一旦成功训练,它们的使用速度更快、更具可扩展性、而且更便宜。
需要昂贵的训练数据集
GPT 方法非常适合中小型复杂文本分析问题,而 BERT 方法更适合简单和大规模问题。GPT 和 BERT 并不相互排斥,将它们结合起来有时可以两全其美。例如,GPT-4 可以以低成本创建一个小而高质量的训练数据集,然后将其用于训练 BERT,从而更便宜、更快地扩展到大量文档。
与其他文本分析方法的比较
优势
缺点
绿光发光二极管
1. 无需额外培训
2. 灵活的自然语言提示
3. 理解复杂而微妙的问题
4. 处理较长的输入
1. 资源要求高(昂贵、缓慢)
2. 无法保证答案有意义
3. 第三方访问限制
4. 数据隐私问题
其他文本分析方法
更便宜、更快捷
处理简单任务
GLLM 在解决复杂的文本分析任务方面具有显著优势,尤其是不需要额外训练的灵活性和处理长文本的能力。然而,它们的成本、速度和数据隐私问题也是研究人员需要权衡的重要因素。此外,GLLM 模型的答案乍一看可能不错,但在验证之前应谨慎行事。
与手工编码的比较
GLLM 的强大功能和开箱即用功能使其成为手动编码的潜在替代方案。与手动编码相比,GLLM 更便宜、更快速,并且对于相同任务提供更一致的结果。GLLM 还可以记忆和回忆大量信息,展现出超越人类的能力。
然而,GLLM 无法保证与手动编码相同的结果。研究助理 (RA) 的优势在于灵活性、推理能力和激励机制。积极性高的 RA 通常可以在极少的指导下提供高质量的输出,而 GLLM 可能需要及时进行工程设计或微调才能实现相同的结果。因此,对于样本较少的复杂任务,手动编码更合适。
领域知识也是一个限制因素。GLLM 通常需要通过明确的例子来学习领域知识,而这些知识可能很难获得或构建。例如,Hail 等人 (2018) 通过手动编码区分了道德错误和法律错误的会计丑闻,但向 GLLM 解释道德错误的含义却具有挑战性。
3 讨论
在使用 GLLM 进行研究时,研究人员需要注意几个关键问题,包括训练数据中的潜在偏差、来源的不确定性、近期。。的遗漏、可重复性的挑战以及数据隐私和版权风险。这些挑战要求研究人员在应用 GLLM 时要谨慎。
(1)训练数据偏差
潜在影响:训练数据中的偏见可能会在模型应用过程中重现,例如与人工生成的招聘信息相比,ChatGPT 生成的招聘信息包容性较差,在性别等方面存在明显偏见等。
缓解:研究人员需要评估输出是否存在偏差,并通过提示设计或微调来缓解这些问题。
(2)来源问题
潜在影响:由于数据集规模庞大,很难确切知道模型在生成数据集时依赖了哪些具体信息源,这使得归因困难且模型行为难以预测。
缓解:通过提示或微调向模型提供重要信息。
(3)遗漏近期。。
潜在影响:GLLM 的训练数据仅包含某个时间点之前的历史数据。训练样本之外的任何。。或变化都不会反映在模型输出中。
缓解:研究人员必须考虑这些限制,并通过在解释结果时提供提示或使用最新数据微调模型来弥补它们。
(4)重复性挑战
潜在影响:同一提示的输出在不同模型、同一模型的不同版本甚至不同构建之间可能会有很大差异。此外,第三方提供商可能会随时更改或撤回模型。这些依赖关系带来了复制挑战。
缓解:避免依赖第三方 API,尝试使用可以在本地存储和运行的 GLLM;始终备份原始提示和完成;尝试使生成过程确定性;透明并共享代码。