August 12, 2023 @Haoyu
以下是与该项目类似的 LLM on charts 的参考,以及内容梳理。
Foundation models for reasoning on charts
Pipeline 说明,流程如下:

<aside> 📊 input → De-render(DePlot) + LLM → output(txt)
</aside>
Detail 如下:
Blog 中提到的主要的论文如下:
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language...
论文主要实现:根据截图推理html源码。改论文存在的问题:只关注于文本和符号的匹配,而忽略了图像和文本之间的语义关系。此外,Pix2Struct的输入上的限制意味着只能处理固定分辨率的图像。
MatCha: Enhancing Visual Language Pretraining with Math Reasoning...
两个功能:图表解构和数值推理。