Some related work needs to be added.
需要补充一些相关工作。
Zhu D, Chen J, Shen X, et al. Minigpt-4: Enhancing vision-language understanding with advanced large language models[J]. arXiv preprint arXiv:2304.10592, 2023.
朱德,陈杰,沉X,等。 Minigpt-4:利用先进的大语言模型增强视觉语言理解[J]。 arXiv预印本 arXiv:2304.10592, 2023。
Wang W, Chen Z, Chen X, et al. Visionllm: Large language model is also an open-ended decoder for vision-centric tasks[J]. Advances in Neural Information Processing Systems, 2024, 36.
王文,陈Z,陈X,等。 Visionllm :大型语言模型也是一种用于以视觉为中心的任务的开放式解码器[J].神经信息处理系统的进展,2024 年,36。
Chen G, Liu X, Wang G, et al. Tem-adapter: Adapting image-text pretraining for video question answer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 13945-13955.
陈刚,刘X,王刚,等。 Tem -adapter:采用图像文本预训练进行视频问答[C]//IEEE/CVF计算机视觉国际会议论文集。 2023 年:13945-13955。
Lin B, Zhu B, Ye Y, et al. Video-llava: Learning united visual representation by alignment before projection[J]. arXiv preprint arXiv:2311.10122, 2023.
林B,朱B,叶Y,等。 Video- llava :通过投影前对齐学习统一视觉表示[J]。 arXiv预印本 arXiv:2311.10122, 2023。
Yin S, Fu C, Zhao S, et al. A survey on multimodal large language models[J]. arXiv preprint arXiv:2306.13549, 2023.
尹S,付C,赵S,等。多模态大语言模型综述[J]. arXiv预印本 arXiv:2306.13549, 2023。
Cao J, Ye P, Li S, et al. MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 15710-15719.
曹杰,叶鹏,李S,等。 MADTP:用于加速视觉语言变换器的多模态对齐引导动态令牌修剪[C]//IEEE/CVF 计算机视觉和模式识别会议论文集。 2024 年:15710-15719。
Gao P, Han J, Zhang R, et al. Llama-adapter v2: Parameter-efficient visual instruction model[J]. arXiv preprint arXiv:2304.15010, 2023.
高平,韩杰,张瑞,等。 Llama-adapter v2:参数高效的视觉指令模型[J]。 arXiv预印本 arXiv:2304.15010, 2023。