[论文快读] HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

Apr 21, 2023

用chatGPT处理文字的简单任务已经oldschool，把chatGPT作为coordinator，来协调多种大模型API来完成多模态复杂任务已成为趋势。 HuggingGPT就是这样一篇对应文章。

LLMs拥有在对自然语言数据处理的zero-shot能力。这也是恰恰是它的limitation，即 i) 只能处理文字 ii) zero-shot的跟fintune过的专家模型相比，差距明显。 HuggingGPT意在解决这个问题，其核心思想在于，无论多么复杂的现实推理任务，都可以用语言表述。而chatGPT成为链接语言和多模态任务的桥梁。

HuggingGPT包含了四个重要步骤：解析用户输入，模型选择，执行endpoint和生成答案。笔者个人认为前两步是HuggingGPT能成为task coordinator的重要原因。

解析用户输入和模型选择作者通过few-shot 的in context learning，用chatGPT将用户端的自然语言输入转为预设的planning template。 Huggingface Hub上有大量的open source的针对于某项任务的专家模型，并且有着详细的自然语言形态的模型说明书。这给了根据template匹配模型的可能。

通常来说，代码是一部分人类后天精心设计的，而并非是通过长期自然的演变而形成，所以不被认为是自然语言。但随着code不断丰富着nlp的语料库，以及nlp任务中越来越多的涉及对code的处理，code和人类自然语言之间的界限开始模糊。未来，对code和人类语言综合处理，一定会带来功能更加高级的应用。

马东锡NLP读书笔记

Discussion about this post