[论文快读] HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
用chatGPT处理文字的简单任务已经oldschool,把chatGPT作为coordinator,来协调多种大模型API来完成多模态复杂任务已成为趋势。 HuggingGPT就是这样一篇对应文章。
LLMs拥有在对自然语言数据处理的zero-shot能力。这也是恰恰是它的limitation,即 i) 只能处理文字 ii) zero-shot的跟fintune过的专家模型相比,差距明显。 HuggingGPT意在解决这个问题,其核心思想在于,无论多么复杂的现实推理任务,都可以用语言表述。 而chatGPT成为链接语言和多模态任务的桥梁。
HuggingGPT包含了四个重要步骤: 解析用户输入, 模型选择,执行endpoint和生成答案。 笔者个人认为前两步是HuggingGPT能成为task coordinator的重要原因。
解析用户输入和模型选择 作者通过few-shot 的in context learning,用chatGPT将用户端的自然语言输入转为预设的planning template。 Huggingface Hub上有大量的open source的针对于某项任务的专家模型,并且有着详细的自然语言形态的模型说明书。这给了根据template匹配模型的可能。
通常来说,代码是一部分人类后天精心设计的,而并非是通过长期自然的演变而形成,所以不被认为是自然语言。 但随着code不断丰富着nlp的语料库,以及nlp任务中越来越多的涉及对code的处理,code和人类自然语言之间的界限开始模糊。 未来,对code和人类语言综合处理,一定会带来功能更加高级的应用。