视觉语言大模型(Vision Language Model, VLM) 在自动驾驶(Autonomous Driving, AD) 的初步应用还是在视觉问答上(Vision Question Answering, VQA), 针对这一简单的应用,比赛的设定目的是构造对抗样本,使得基础大模型(Fundation Models, FM)在VQA任务上失败,同时保持图像结构一致性的限制(SSIM)。
在本次比赛中,攻击的关键在于排版攻击,字体越大,攻击效果往往越好,可惜我们还是太保守了,没有将字体设置的太大,因为对抗样本的有效性要求:对图像的干扰不能使得原图的真相无法被人眼分辨。
我们的比赛成绩获得了Top-3,相关展示在这里:
https://youtu.be/U3SiUQvZ5LM?t=378
排行榜:
https://cvpr24-advml.github.io/#challenge
打赏作者