復(fù)旦大學(xué)NLP實(shí)驗(yàn)室研發(fā)Game-RL,利用游戲豐富視覺元素和明確規(guī)則生成多模態(tài)可驗(yàn)證推理數(shù)據(jù),通過強(qiáng)化訓(xùn)練提升視覺語言模型的推理能力。創(chuàng)新性地提出Code2Logic方法,系統(tǒng)化合成游戲任務(wù)數(shù)據(jù),構(gòu)建GameQA數(shù)據(jù)集,驗(yàn)證了游戲數(shù)據(jù)在復(fù)雜推理訓(xùn)練中的優(yōu)勢。
現(xiàn)有工作利用RL提升了視覺語言模型(VLM)的推理能力,但其任務(wù)場景往往是幾何或者圖表推理。這種領(lǐng)域上的局限,制約了VLM的探索和學(xué)習(xí)。
如何拓展VLM的RL訓(xùn)練領(lǐng)域呢?
電子游戲視覺元素豐富,且規(guī)則明確而可驗(yàn)證,因而是理想的多模態(tài)推理數(shù)據(jù)源。
由此,復(fù)旦大學(xué)NLP實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了Game-RL——構(gòu)造多模態(tài)可驗(yàn)證的游戲任務(wù)來強(qiáng)化訓(xùn)練VLM。
