Toolformer:元的语言模型可以教自己使用外部工具
近年来,语言模型在自然语言处理领域掀起了风暴,但即使是最先进的模型也有其局限性。他们在算术和事实检查等基本任务中挣扎。然而,由Meta的研究人员开发的名为Toolformer的新AI语言模型有望改变这种状况。
Toolformer 不同于其他语言模型,如 ChatGPT,因为它本质上可以自学使用外部工具,如搜索引擎、计算器和日历。这要归功于API的使用,这是应用程序编程接口的缩写。Toolformer 可以使用 API 访问来自各种外部软件工具的信息,包括语言翻译器和事实参考。
在训练期间,Toolformer 得到了一小组人类编写的示例,演示了如何使用每个 API,然后允许它注释一个大型语言建模数据集。它以“自我监督”的方式做到这一点。该模型学会了预测每个基于文本的 API 调用,就好像它们是任何其他形式的文本一样。运行时,它可以根据需要插入调用,甚至可以自行决定使用哪种工具(以及如何使用它)。
Toolformer的API调用功能使其能够解决其他语言模型(如算术)中的限制。例如,如果用户希望基于 LLM 的助手向其日历添加日期,则 Toolformer 可以使用指向日历应用的 API 链接来处理该任务。
Toolformer 建立在具有 6 亿个参数的预训练 GPT-J 模型之上。在各种面向工具的模型上进行的各种实验得出结论,Toolformer 的性能比大得多的 GPT-7 模型要好得多。值得注意的是,GPT-3 模型有超过 3 亿个参数。
虽然将外部工具集成到语言模型中并不是一个新概念,但大多数现有方法都依赖于大量的人工注释,或者仅限于特定的任务特定设置。另一方面,Toolformer可以学习以通用的方式使用一系列工具,而无需对特定任务进行专门培训。但是,此类语言模型可能会意外调用错误的工具或对用户数据造成损害,这始终存在很小的风险。尽管如此,Toolformer是朝着自然语言处理领域正确方向迈出的有希望的一步。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。