August 12, 2023 @Haoyu

正文


以下是与该项目类似的 LLM on charts 的参考,以及内容梳理。

Foundation models for reasoning on charts

Pipeline 说明,流程如下:

Untitled

<aside> 📊 input → De-render(DePlot) + LLM → output(txt)

</aside>

Detail 如下:

  1. plot, chart → underlying table (linearized table)
    1. 在 MatCha 上微调得到 DePlot
  2. text input → LLM
    1. any LLM (FlanPaLM or Codex)

Blog 中提到的主要的论文如下:

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language...

论文主要实现:根据截图推理html源码。改论文存在的问题:只关注于文本和符号的匹配,而忽略了图像和文本之间的语义关系。此外,Pix2Struct的输入上的限制意味着只能处理固定分辨率的图像。

MatCha: Enhancing Visual Language Pretraining with Math Reasoning...

两个功能:图表解构和数值推理。