[论文快读]：ViperGPT: Visual Inference via Python Execution for Reasoning

Apr 21, 2023

这是一篇简单的大模型组合胶水文章，但作者脑回路十分清奇：把自然语言的问题（query）生成python 代码来解决现实的视觉推理。读罢，不禁感想，如果代码可以描绘一切，那么这个世界有可能是代码生成的么？

此论文完成了codex下架之前，目的是解决视觉推理问题，比如通过判断一个图片中不同的实体及其数量，算简单的数学问题。作者通过把function signature和docstrings当作context，连同query一起promptingLLM生成带有视觉预训练模型api的代码。

值得一提的是，这种prompting的方式非常smart！ function signature天然包括了api名称以及输入输出type，而docstrings包含了执行实际的例子。因而避免了在prompt message中嵌入冗长的代码的具体实现。

生成的代码包含了对各种预训练cv模型api的调用，例如识别，分割，最终解决视觉推理问题。这个清奇的思路似乎把人类自然语言反编译为源代码，让代码解决代码问题。

马东锡NLP读书笔记