Fine-tuning the full LLMs necessitates substantial training memory owing to their considerable size. While most PEFT methods primarily target parameter efficiency, they still incur a significant memory overhead during training because gradient computation and backpropagation are still necessary for these methods. For example, prevalent PEFT techniques such as adapters and LoRA can only reduce memory usage to approximately compared to full model fine-tuning according to some literatures [125], [130]. From a computational perspective, memory efficiency also remains a critical factor that cannot be overlooked.
图像分类:针对特定视觉数据集的图像分类是一种非常常见的需求,并具有广泛的应用,而预训练然后微调范式被视为一种普遍的策略。各种方法利用 PEFT 技术实现高效的模型调整[186],[182],[187],[188]。例如,AdaptFormer [187] 在原始 ViT 模型的 FFN 旁插入适配器模块,用于视觉识别任务。VPT(Visual Prompt Tuning)[186] 在每个 Transformer 层的输入序列中添加少量任务特定参数。在将 ViT 应用于下游任务时,只有这些添加的参数和分类头被设置为可训练。[189]的研究发现,与监督 ViT 相比,VPT 通常在自监督 ViT 下表现不佳。进一步的分析表明,不同的预训练方法和下游任务对不同位置的 transformer 块有不同程度的依赖。为了解决这个问题,该研究引入了 ViT 块的可适应门。 这些门动态调节即时令牌对 ViT 块的贡献,从而实现模型更有针对性地适应当前任务。
视频识别:一些作品考虑了更具挑战性的适应问题,即将 ViT 转移到具有更大领域差距的下游任务。例如,ST-Adapter(时空适配器)[190] 和 AIM [191] 都将适配器层插入预训练的 ViT 块中。它们的主要目标是建模时空信息,从而实现从图像模型到视频任务的高效适应。值得注意的是,这两种方法都展示出了超越传统全模型微调方法的性能。
扩散模型[219],[220]是一类生成模型,通过渐进去噪过程,学习将随机噪声转化为结构化输出以生成数据。在训练过程中,扩散模型学习使用去噪网络逆转添加到训练数据中的噪声,而在推断中,它们从噪声开始,使用去噪网络迭代地创建与训练示例相同分布的数据。扩散模型具有各种应用[221],[222],[223],[224],[225],其中最显著的是稳定扩散[226],它通过其强大的能力直接从文本描述中生成连贯且具有上下文相关性的图像,弥合了文本和图像之间的差距。许多研究利用 PEFT 技术来调整预训练的扩散模型以用于下游任务,包括加速采样速度[227],[228],文本到视频的适应[229],[230],文本到 3D 的适应[231]等。本节主要关注两种情景:整合除了纯文本条件之外的额外输入模态,以及基于预训练的扩散模型定制内容生成。
T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell 等人,“语言模型是少样本学习器”,《神经信息处理系统进展》,第 33 卷,第 1877-1901 页,2020 年。
Y. Zhuang, Y. Yu, K. Wang, H. Sun, 和 C. Zhang, "Toolqa: 一个用于外部工具 问题回答的数据集," arXiv 预印本 arXiv:2306.13304, 2023.
W. Zhu, H. Liu, Q. Dong, J. Xu, L. Kong, J. Chen, L. Li, 和 S. Huang, "使用大型语言模型进行多语言机器翻译:实证结果和分析," arXiv 预印本 arXiv:2304.04675, 2023.
M. U. Hadi,R. Qureshi,A. Shah,M. Irfan,A. Zafar,M. Shaikh,N. Akhtar,J. Wu 和 S. Mirjalili,“大型语言模型调查:应用,挑战,限制和实际使用”,TechRxiv,2023。
B. Xu, X. Liu, H. Shen, Z. Han, Y. Li, M. Yue, Z. Peng, Y. Liu, Z. Yao, and D. Xu, "Gentopia: 一个用于工具增强的协作平台",arXiv 预印本 arXiv:2308.04030, 2023.
G. Li,H. A. A. K. Hammoud,H. Itani,D. Khizbullin 和 B. Ghanem,“骆驼:大型语言模型社会“心灵”探索的沟通代理”,发表于 2023 年第三十七届神经信息处理系统会议。
H. Zhang, X. Liu, 和 J. Zhang, "Summit: 通过 ChatGPT 迭代文本摘要," arXiv 预印本 arXiv:2305.14835, 2023.
B. Zhang 和 R. Sennrich,“均方根层归一化”,神经信息处理系统进展,第 32 卷,2019 年。
J. Su, Y. Lu, S. Pan, A. Murtadha, B. Wen, 和 Y. Liu, "Roformer: Enhanced transformer with rotary position embedding," arXiv 预印本 arXiv:2104.09864, 2021.
A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, 和 S. R. Bowman, "Glue: A multi-task benchmark and analysis platform for natural language understanding," arXiv preprint arXiv:1804.07461, 2018.
T. Mihaylov, P. Clark, T. Khot, 和 A. Sabharwal, "一套盔甲能导电吗?一个用于开放式书籍问答的新数据集," 发表于 EMNLP, 2018.
[13] Y. Bisk, R. Zellers, R. L. Bras, J. Gao, and Y. Choi, "Piqa: Reasoning about physical commonsense in natural language," in Thirty-Fourth AAAI Conference on Artificial Intelligence, 2020.
[13] Y. Bisk, R. Zellers, R. L. Bras, J. Gao, 和 Y. Choi, "Piqa: 推理自然语言中的物理常识," 在第三十四届 AAAI 人工智能大会上, 2020.
M. Sap、H. Rashkin、D. Chen、R. LeBras 和 Y. Choi,"Socialiqa: Commonsense reasoning about social interactions," arXiv 预印本 arXiv:1904.09728,2019。
R. Zellers, A. Holtzman, Y. Bisk, A. Farhadi, and Y. Choi, "Hellaswag: Can a machine really finish your sentence?" in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019.
C. e. a. Clark,“Boolq:探索自然的是/否问题的令人惊讶的困难”,发表于 NAACL,2019 年。
K. Sakaguchi, R. L. Bras, C. Bhagavatula, 和 Y. Choi, "Winogrande: An adversarial winograd schema challenge at scale," 《ACM 通讯》, vol. 64, no. 9, pp. 99-106, 2021.
P. Clark, I. Cowhey, O. Etzioni, T. Khot, A. Sabharwal, C. Schoenick, and O. Tafjord, "认为你已经解决了问题回答?尝试 ARC,AI2 推理挑战," arXiv:1803.05457v1, 2018.
W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev 等人,《The kinetics human action video dataset》,arXiv 预印本 arXiv:1705.06950,2017。
R. Goyal, S. Ebrahimi Kahou, V. Michalski, J. Materzynska, S. Westphal, H. Kim, V. Haenel, I. Fruend, P. Yianilos, M. Mueller-Freitag 等人,“用于学习和评估视觉常识的“某某某”视频数据库”,发表于 2017 年 IEEE 国际计算机视觉会议论文集,第 5842-5850 页。
H. Kuehne、H. Jhuang、E. Garrote、T. Poggio 和 T. Serre,“Hmdb:用于人类动作识别的大型视频数据库”,2011 年计算机视觉国际会议论文集,IEEE,2011 年,第 2556-2563 页。
[22] T.-Y. 林, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, 和 C. L. Zitnick, "Microsoft coco: Common objects in context," in Computer Vision-ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13. Springer, 2014, pp. 740-755.
B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, 和 A. Torralba, "通过 ade20k 数据集进行场景解析," 在 2017 年 IEEE 计算机视觉和模式识别会议论文集中,第 633-641 页。
M. Everingham, L. Van Gool, C. K. Williams, J. Winn, 和 A. Zisserman, "The pascal visual object classes (voc) challenge," 国际计算机视觉杂志, vol. 88, pp. 303-338, 2010.
N. Houlsby, A. Giurgiu, S. Jastrzebski, B. Morrone, Q. De Laroussilhe, A. Gesmundo, M. Attariyan, 和 S. Gelly, "Parameter-efficient transfer learning for nlp," 在国际机器学习会议上。PMLR, 2019, 页 2790-2799。
J. He, C. Zhou, X. Ma, T. Berg-Kirkpatrick, 和 G. Neubig, "Towards a unified view of parameter-efficient transfer learning," arXiv 预印本 arXiv:2110.04366, 2021.
Y. Zhu, J. Feng, C. Zhao, M. Wang, 和 L. Li, "用于多语言机器翻译的抗干扰适配器," arXiv 预印本 arXiv:2104.08154, 2021.
[28] T. 雷,J. 白,S. 布拉玛,J. 艾恩斯利,K. 李,Y. 周,N. 杜,V. Y. 赵,Y. 吴,B. 李等,“条件适配器:具有快速推理的参数高效迁移学习”,arXiv 预印本 arXiv:2304.04947,2023 年。
J. Pfeiffer, A. Kamath, A. Rücklé, K. Cho 和 I. Gurevych, "Adapterfusion: Non-destructive task composition for transfer learning," arXiv 预印本 arXiv:2005.00247, 2020.
Y. Wang, S. Mukherjee, X. Liu, J. Gao, A. H. Awadallah 和 J. Gao, "Adamix: Mixture-of-adapter for parameter-efficient tuning of large language models," arXiv 预印本 arXiv:2205.12410, vol. 1, no. 2, p. 4, 2022.
H. Zhao, J. Fu, 和 Z. He, "基于原型的超适配器用于高效多任务调整," arXiv 预印本 arXiv:2310.11670, 2023.
[32] A. Chronopoulou, M. E. Peters, A. Fraser, and J. Dodge,“Adaptersoup: Weight averaging to improve generalization of pretrained language models”,arXiv 预印本 arXiv:2302.07027,2023。
S. He, R.-Z. Fan, L. Ding, L. Shen, T. Zhou, 和 D. Tao, "Mera: Merging pretrained adapters for few-shot learning," arXiv 预印本 arXiv:2308.15982, 2023.
R. K. Mahabadi, S. Ruder, M. Dehghani 和 J. Henderson,"通过共享超网络进行参数高效的变压器多任务微调",arXiv 预印本 arXiv:2106.04489,2021。
[35] X. L. Li 和 P. Liang, "前缀调整:优化生成的连续提示," arXiv 预印本 arXiv:2101.00190, 2021.
J. Li, W. Aitken, R. Bhambhoria 和 X. Zhu,“前缀传播:长序列的参数高效调整”,arXiv 预印本 arXiv:2305.12086,2023。
[37] 刘晓, 季凯, 傅宇, 谭伟立, 杜哲, 杨哲, 唐军, "P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks," arXiv preprint arXiv:2110.07602, 2021.
B. Lester, R. Al-Rfou 和 N. Constant,“参数高效提示调整的规模优势”,arXiv 预印本 arXiv:2104.08691,2021。
F. Ma, C. Zhang, L. Ren, J. Wang, Q. Wang, W. Wu, X. Quan, 和 D. Song, "Xprompt: 探索提示调整的极端," arXiv 预印本 arXiv:2210.04457, 2022.
Z. Wu, S. Wang, J. Gu, R. Hou, Y. Dong, V. Vydiswaran, 和 H. Ma, "Idpg: An instance-dependent prompt generation method," arXiv 预印本 arXiv:2204.04497, 2022.
T. Vu, B. Lester, N. Constant, R. A1-Rfou, 和 D. Cer, "Spot: Better frozen model adaptation through soft prompt transfer," arXiv 预印本 arXiv:2110.07904, 2021.
Y. Su, X. Wang, Y. Qin, C.-M. Chan, Y. Lin, H. Wang, K. Wen, Z. Liu, P. Li, J. Li 等人,“关于提示调整在自然语言处理中的可转移性”,arXiv 预印本 arXiv:2111.06719,2021。
J. Wu, T. Yu, R. Wang, Z. Song, R. Zhang, H. Zhao, C. Lu, S. Li, 和 R. Henao, "Infoprompt: 信息论软提示调整自然语言理解," arXiv 预印本 arXiv:2306.04933, 2023.
L. Chen, H. Huang, 和 M. Cheng, "Ptp: 通过基于扰动的正则化器提高提示调整的稳定性和性能," arXiv 预印本 arXiv:2305.02423, 2023.
Qin Y, Wang X, Su Y, Lin Y, Ding N, Yi J, Chen W, Liu Z, Li J, Hou L 等人,“通过提示调整探索通用内在任务子空间”,arXiv 预印本 arXiv:2110.07867,2021 年。
J.-Y. Choi, J. Kim, J.-H. Park, W.-L. Mok, 和 S. Lee, "Smop: Towards efficient and effective prompt tuning with sparse mixture-of-prompts," 在《2023 年自然语言处理经验方法会议论文集》中发表,2023 年,第 14306-14316 页。
Z. Shi 和 A. Lipani,“Dept: Decomposed prompt tuning for parameter-efficient fine-tuning”,arXiv 预印本 arXiv:2309.05173,2023。
[53] H. 刘,D. 坦,M. Muqeeth,J. Mohta,T. 黄,M. Bansal 和 C. A. Raffel,“少样本参数高效微调比上下文学习更好更便宜,” 神经信息处理系统进展,第 35 卷,第 1950-1965 页,2022 年。
T. Zadouri,A. Üstün,A. Ahmadian,B. Ermiş,A. Locatelli 和 S. Hooker,“将专家混合推向极限:用于指令调整的极其参数高效的 moe”,arXiv 预印本 arXiv:2309.05444,2023。
D. Lian, D. Zhou, J. Feng, 和 X. Wang, "Scaling & shifting your features: A new baseline for efficient model tuning," Advances in Neural Information Processing Systems, vol. 35, pp. 109-123, 2022.
D. Guo, A. M. Rush, 和 Y. Kim, "Parameter-efficient transfer learning with diff pruning," arXiv 预印本 arXiv:2012.07463, 2020.
N. Lawton, A. Kumar, G. Thattai, A. Galstyan, 和 G. V. Steeg, "神经架构搜索用于大型预训练语言模型的参数高效微调," arXiv 预印本 arXiv:2305.16597, 2023.
[59] B. 廖,Y. 孟,和 C. 蒙兹,“无需引入新的延迟的参数高效微调”,arXiv 预印本 arXiv:2305.16742,2023。
Y.-L. Sung, V. Nair 和 C. A. Raffel,“使用固定稀疏掩模训练神经网络”,《神经信息处理系统进展》,第 34 卷,第 24 193-24 205 页,2021 年。
S. S. S. 达斯,R. H. 张,P. 史,W. 尹和 R. 张,“通过样本感知动态稀疏微调实现统一的低资源序列标记”,arXiv 预印本 arXiv:2311.03748,2023。
[62] A. Ansell, E. M. Ponti, A. Korhonen, and I. Vulić, "用于跨语言转移的可组合稀疏微调," arXiv 预印本 arXiv:2110.07560, 2021
[63] Z. Fu, H. Yang, A. M.-C. So, W. Lam, L. Bing, and N. Collier, "On the effectiveness of parameter-efficient fine-tuning," in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 37, no. 11, 2023, pp. .
【63】Z. Fu,H. Yang,A. M.-C. So,W. Lam,L. Bing 和 N. Collier,“关于参数高效微调的有效性”,载于第 37 卷第 11 期 2023 年 AAAI 人工智能会议论文集,第页。
R. Xu, F. Luo, Z. Zhang, C. Tan, B. Chang, S. Huang, 和 F. Huang, "在大型语言模型中培养一个孩子:朝着有效和可泛化的微调迈进," arXiv 预印本 arXiv:2109.05687, 2021.
D. Vucetic, M. Tayaranian, M. Ziaeefard, J. J. Clark, B. H. Meyer, 和 W. J. Gross, "Efficient fine-tuning of bert models on the edge," 在 2022 年 IEEE 国际电路与系统研讨会 (ISCAS) 中。IEEE, 2022, pp. 1838-1842.
E. B. Zaken, S. Ravfogel 和 Y. Goldberg, "Bitfit: Simple parameterefficient fine-tuning for transformer-based masked language-models," arXiv 预印本 arXiv:2106.10199, 2021.
M. Gheini, X. Ren 和 J. May,“交叉注意力就是你所需要的一切:为机器翻译调整预训练的 transformers”,arXiv 预印本 arXiv:2104.08771,2021。
H. He, J. Cai, J. Zhang, D. Tao, 和 B. Zhuang, "Sensitivity-aware visual parameter-efficient fine-tuning," 在 2023 年 IEEE/CVF 国际计算机视觉会议论文集中, pp. 11825-11835.
A. Aghajanyan, L. Zettlemoyer, 和 S. Gupta, "内在维度解释语言模型微调的有效性," arXiv 预印本 arXiv:2012.13255, 2020.
[70] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen, "Lora: Low-rank adaptation of large language models," arXiv preprint arXiv:2106.09685, 2021
[70] 胡恩杰,沈阳,沃利斯,艾伦-朱,李阳,王硕,王磊,陈伟,“Lora: 大型语言模型的低秩适应”,arXiv 预印本 arXiv:2106.09685,2021
[71] R. Karimi Mahabadi, J. Henderson, 和 S. Ruder, "Compacter: 高效低秩超复适配器层," Advances in Neural Information Processing Systems, vol. 34, pp. 1022-1035, 2021.
[72] A. Edalati, M. Tahaei, I. Kobyzev, V. P. Nia, J. J. Clark, and M. Rezagholizadeh, "Krona: Parameter efficient tuning with kronecker adapter," arXiv preprint arXiv:2212.10650, 2022.
[72] A. Edalati, M. Tahaei, I. Kobyzev, V. P. Nia, J. J. Clark, 和 M. Rezagholizadeh, "Krona: Parameter efficient tuning with kronecker adapter," arXiv 预印本 arXiv:2212.10650, 2022.
[79] S. Haobo, H. Zhao, S. Majumder, and T. Lin,“免费增加模型容量:一种简单的参数高效微调策略”,发表于 2023 年第十二届国际学习表示会议。
R. Zhang, R. Qiang, S. A. Somayajula, 和 P. Xie, "Autolora: Automatically tuning matrix ranks in low-rank adaptation based on meta learning," arXiv 预印本 arXiv:2403.09113, 2024.
[81] A. X.杨,M. Robeyns,X. 王和 L. Aitchison,“大型语言模型的贝叶斯低秩适应”,arXiv 预印本
[88] X. Wu, S. Huang, and F. Wei, "Lora 专家混合模型," arXiv 预印本 arXiv:2404.13628, 2024
[89] D. Li, Y. Ma, N. Wang, Z. Cheng, L. Duan, J. Zuo, C. Yang, and M. Tang, "Mixlora: Enhancing large language models fine-tuning with lora based mixture of experts," arXiv preprint arXiv:2404.15159, 2024.
Y. Mao, L. Mathias, R. Hou, A. Almahairi, H. Ma, J. Han, W.-t. Yih, 和 M. Khabsa, "Unipelt: 一个用于参数高效语言模型调整的统一框架," arXiv 预印本 arXiv:2110.07577, 2021.
J. Chen, A. Zhang, X. Shi, M. Li, A. Smola, 和 D. Yang, "参数高效微调设计空间," arXiv 预印本 arXiv:2301.01821, 2023.
[92] 张宇,周凯,刘哲,“神经提示搜索”,2022。
[93] H. Zhou, X. Wan, I. Vulić, and A. Korhonen,“Autopeft: Automatic configuration search for parameter-efficient fine-tuning”,arXiv 预印本 arXiv:2301.12132,2023。
Z. 胡,Y. 兰,L. 王,W. 徐,E.-P. 林,R. K.-W. 李,L. 冰和 S. 波里亚,"Llm-适配器:用于大型语言模型参数高效微调的适配器系列",arXiv 预印本 arXiv:2304.01933,2023。
J. Frankle 和 M. Carbin,“彩票票假设:发现稀疏、可训练的神经网络”,arXiv 预印本 arXiv:1803.03635,2018。
[101] E. Malach, G. Yehudai, S. Shalev-Schwartz, and O. Shamir, "Proving the lottery ticket hypothesis: Pruning is all you need," in International Conference on Machine Learning. PMLR, 2020, pp. 6682-6691
[102] V. Fomenko, H. Yu, J. Lee, S. Hsieh, and W. Chen, "A note on lora," arXiv preprint arXiv:2404.05086, 2024.
[102] V. Fomenko, H. Yu, J. Lee, S. Hsieh, 和 W. Chen, "关于 lora 的一点说明," arXiv 预印本 arXiv:2404.05086, 2024.
A. Beck 和 M. Teboulle,“用于线性逆问题的快速迭代收缩阈值算法”,《SIAM 图像科学杂志》,第 2 卷,第 1 期,2009 年,183-202 页。
A. Chambolle, R. A. De Vore, N.-Y. Lee, 和 B. J. Lucier, "非线性小波图像处理:通过小波收缩解决变分问题、压缩和去噪," IEEE 图像处理期刊, vol. 7, no. 3, pp. 319-335, 1998
D. J. MacKay,“反向传播网络的实用贝叶斯框架”,《神经计算》,第 4 卷,第 3 期,1992 年,448-472 页。
[106] J. Antorán, D. Janz, J. U. Allingham, E. Daxberger, R. R. Barbano, E. Nalisnick, 和 J. M. Hernández-Lobato, "调整线性化拉普拉斯模型证据以适应现代深度学习," 在机器学习国际会议上。PMLR, 2022, 页码 796-821.
[108] M. Chen, H. Peng, J. Fu, and H. Ling, "Autoformer: Searching transformers for visual recognition," in Proceedings of the IEEE/CVF international conference on computer vision, 2021, pp. 12270-12280.
[108] M. Chen, H. Peng, J. Fu, 和 H. Ling, "Autoformer: 为视觉识别搜索 transformers," 在 2021 年 IEEE/CVF 国际计算机视觉会议论文集中, pp. 12270-12280.
P. I. Frazier,“贝叶斯优化教程”,arXiv 预印本 arXiv:1807.02811,2018。
[110] A. Rücklé, G. Geigle, M. Glockner, T. Beck, J. Pfeiffer, N. Reimers, and I. Gurevych, "Adapterdrop: On the efficiency of adapters in transformers," arXiv preprint arXiv:2010.11918, 2020.
[110] A. Rücklé, G. Geigle, M. Glockner, T. Beck, J. Pfeiffer, N. Reimers, 和 I. Gurevych, "Adapterdrop: On the efficiency of adapters in transformers," arXiv 预印本 arXiv:2010.11918, 2020.
[111] S. He, L. Ding, D. Dong, J. Zhang, and D. Tao,“SparseAdapter: An easy approach for improving the parameter-efficiency of adapters,” in Findings of the Association for Computational Linguistics: EMNLP 2022. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, Dec. 2022, pp. 2184-2190. [Online]. Available: https://aclanthology.org/2022.findings-emnlp. 160
L. Hedegaard、A. Alok、J. Jose 和 A. Iosifidis,"Structured pruning adapters," arXiv 预印本 arXiv:2211.10155,2022。
G. 曾,P. 张和 W. 卢,“一个网络,多个面具:朝着更具参数效率的迁移学习”,arXiv 预印本 arXiv:2305.17682,2023。
[115] S. Jie, H. Wang, 和 Z.-H. Deng, "从精度冗余的角度重新审视适配器的参数效率," in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. .
[116] J. Kim, J. H. Lee, S. Kim, J. Park, K. M. Yoo, S. J. Kwon, and D. Lee, "Memory-efficient fine-tuning of compressed large language models via sub-4-bit integer quantization," arXiv preprint arXiv:2305.14152, 2023.
[116] J. Kim,J. H. Lee,S. Kim,J. Park,K. M. Yoo,S. J. Kwon 和 D. Lee,"通过次 4 位整数量化实现压缩大型语言模型的内存高效微调",arXiv 预印本 arXiv:2305.14152,2023。
T. Dettmers, A. Pagnoni, A. Holtzman, 和 L. Zettlemoyer, "Qlora: Efficient finetuning of quantized 1lms," arXiv 预印本 arXiv:2305.14314, 2023.
Y. Li, Y. Yu, C. Liang, P. He, N. Karampatziakis, W. Chen, 和 T. Zhao, "Loftq: Lora-fine-tuning-aware quantization for large language models," arXiv 预印本 arXiv:2310.08659, 2023.
H. Guo, P. Greengard, E. P. Xing, 和 Y. Kim, "Lq-lora: 低秩加量化矩阵分解用于高效语言模型微调," arXiv 预印本 arXiv:2311.12023, 2023.
Y. Xu, L. Xie, X. Gu, X. Chen, H. Chang, H. Zhang, Z. Chen, X. Zhang, and Q. Tian,“Qa-lora: Quantization-aware low-rank adaptation of large language models”,arXiv 预印本 arXiv:2309.14717,2023。
Y. Chai, J. Gkountouras, G. G. Ko, D. Brooks, and G.-Y. Wei,“Int2. 1:通过低秩适应实现可微调的量化大型语言模型及误差校正”,arXiv 预印本 arXiv:2306.08162,2023
H. Rajabzadeh、M. Valipour、T. Zhu、M. Tahaei、H. J. Kwon、A. Ghodsi、B. Chen 和 M. Rezagholizadeh,"Qdylora: Quantized dynamic lowrank adaptation for efficient large language model tuning," arXiv 预印本 arXiv:2402.10462,2024。
[124] J. O. Zhang, A. Sax, A. Zamir, L. Guibas, and J. Malik,“Sidetuning: a baseline for network adaptation via additive side networks,” in Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part III 16. Springer, 2020, pp.
Y.-L. Sung, J. Cho, 和 M. Bansal, "Lst: Ladder side-tuning for parameter and memory efficient transfer learning," Advances in Neural Information Processing Systems, vol. 35, pp. 12991-13005, 2022.
[126] Z. 江, C. 毛, Z. 黄, A. 马, Y. 吕, Y. 沈, D. 赵, 和 J. 周, "Res-tuning: 通过一种灵活高效的调整范式"
[129] J. Phang, Y. Mao, P. He, and W. Chen, "Hypertuning: Toward adapting large language models without back-propagation," in International Conference on Machine Learning. PMLR, 2023, pp. 27 854-27 875.
【129】J. Phang, Y. Mao, P. He, 和 W. Chen, "Hypertuning: Toward adapting large language models without back-propagation," 在国际机器学习会议上. PMLR, 2023, 页码 27 854-27 875.
F. Jin, J. Zhang, 和 C. Zong, "Parameter-efficient tuning for large language model without calculating its gradients," 在《2023 年自然语言处理经验方法会议论文集》中发表, 2023, pp. 321-330.
S. Malladi、T. Gao、E. Nichani、A. Damian、J. D. Lee、D. Chen 和 S. Arora,"Fine-tuning language models with just forward passes," arXiv 预印本 arXiv:2305.17333,2023。
[132] J. Zhao, Z. Zhang, B. Chen, Z. Wang, A. Anandkumar, and Y. Tian, "Galore: Memory-efficient training by gradient low-rank projection," arXiv preprint arXiv:2403.03507, 2024.
【132】J. 赵,Z. 张,B. 陈,Z. 王,A. Anandkumar 和 Y. 田,“Galore:通过梯度低秩投影实现内存高效训练”,arXiv 预印本 arXiv:2403.03507,2024 年。
W. Kwon, Z. Li, S. Zhuang, Y. Sheng, L. Zheng, C. H. Yu, J. Gonzalez, H. Zhang, and I. Stoica,“基于分页注意力的大型语言模型服务的高效内存管理”,发表于 2023 年第 29 届操作系统原理研讨会论文集,页码 611-626。
Y. Sheng, L. Zheng, B. Yuan, Z. Li, M. Ryabinin, B. Chen, P. Liang, C. Ré, I. Stoica, 和 C. Zhang, "Flexgen: 使用单个 GPU 高吞吐量生成大型语言模型的推理," 发表于国际机器学习会议。PMLR, 2023, pp. 31 094-31 116.
[135] T. Zhou and D. Tao,“Godec: 随机低秩和稀疏矩阵分解在嘈杂情况下”,发表于第 28 届国际机器学习会议 ICML 2011 论文集,2011。
J. Wright, A. Ganesh, S. Rao, Y. Peng, and Y. Ma, "Robust principal component analysis: Exact recovery of corrupted low-rank matrices via convex optimization," Advances in neural information processing systems, vol. 22, 2009.
杰克·赖特,阿加尼什,S. 饶,Y. 彭和 Y. 马,“鲁棒主成分分析:通过凸优化精确恢复损坏的低秩矩阵”,神经信息处理系统进展,第 22 卷,2009 年。
[137] A. N. Gomez, M. Ren, R. Urtasun, and R. B. Grosse, "The reversible residual network: Backpropagation without storing activations," 《神经信息处理系统进展》, 第 30 卷, 2017 年。
M. S. Ozdayi、C. Peris、J. Fitzgerald、C. Dupuy、J. Majmudar、H. Khan、R. Parikh 和 R. Gupta,"通过提示调整控制从大型语言模型中提取记忆数据",arXiv 预印本 arXiv:2305.11759,2023.
G. Xiao, J. Lin, 和 S. Han, "Offsite-tuning: Transfer learning without full model," arXiv 预印本 arXiv:2302.04870, 2023.
T. Che, J. Liu, Y. Zhou, J. Ren, J. Zhou, V. S. Sheng, H. Dai, and D. Dou, "使用参数高效提示调整和自适应优化的大型语言模型联邦学习," arXiv 预印本 arXiv:2310.15080, 2023
Y. Li, M. Du, X. Wang, 和 Y. Wang, "Prompt tuning pushes farther, contrastive learning pulls closer: A two-stage approach to mitigate social biases," arXiv 预印本 arXiv:2307.01595, 2023.
J. Cho, J. Lei, H. Tan, 和 M. Bansal, "通过文本生成统一视觉与语言任务," 在国际机器学习会议上. PMLR, 2021, pp. 1931-1942.
D. Zhu, J. Chen, X. Shen, X. Li, 和 M. Elhoseiny, "Minigpt-4: 使用先进的大型语言模型增强视觉-语言理解," arXiv 预印本 arXiv:2304.10592, 2023.
H. 刘,C. 李,Q. 吴和 Y. J. 李,“视觉指导调整”,arXiv 预印本 arXiv:2304.08485,2023。
[149] S. J. Rennie, E. Marcheret, Y. Mroueh, J. Ross, and V. Goel,“图像字幕的自临界序列训练”,发表于 2017 年 IEEE 计算机视觉与模式识别会议论文集,第 页。
[150] Q. You, H. Jin, Z. Wang, C. Fang, and J. Luo, "带有语义注意力的图像字幕生成," 在 2016 年 IEEE 计算机视觉与模式识别会议论文集中, pp. 4651-4659.
O. Vinyals, A. Toshev, S. Bengio, 和 D. Erhan, "展示和讲述:从 2015 年 mscoco 图像字幕挑战中学到的教训," IEEE 模式分析和机器智能交易, vol. 39, no. 4, pp. 652-663, 2016.
M. Z. Hossain, F. Sohel, M. F. Shiratuddin 和 H. Laga,"图像字幕的深度学习综述",ACM 计算调查(CsUR),第 51 卷,第 6 期,2019 年,页码 1-36。
P. Wang, Q. Wu, C. Shen, A. Dick, 和 A. Van Den Hengel, "Fvqa: 基于事实的视觉问答," IEEE 模式分析与机器智能交易, 卷 40, 无. 10, 页 2413-2427, 2017.
[154] Q. Wu, D. Teney, P. Wang, C. Shen, A. Dick, and A. Van Den Hengel, "Visual question answering: A survey of methods and datasets," Computer Vision and Image Understanding, vol. 163, pp. 21-40, 2017.
[154] Q. Wu, D. Teney, P. Wang, C. Shen, A. Dick, 和 A. Van Den Hengel, "视觉问答:方法和数据集综述," 计算机视觉与图像理解, 卷 163, 页 21-40, 2017.
S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. L. Zitnick, 和 D. Parikh, "Vqa: Visual question answering," 在 2015 年 IEEE 国际计算机视觉会议论文集中, pp. 2425-2433.
Y.-L. Sung, J. Cho, 和 M. Bansal, "V1-adapter: Parameter-efficient transfer learning for vision-and-language tasks," 在 2022 年 IEEE/CVF 计算机视觉与模式识别会议论文集中, pp. 5227-5237.
R. Zhang, J. Han, A. Zhou, X. Hu, S. Yan, P. Lu, H. Li, P. Gao, and Y. Qiao,“Llama-adapter: Efficient fine-tuning of language models with zero-init attention”,arXiv 预印本 arXiv:2303.16199,2023。
[160] B. Zhao, H. Tu, C. Wei, J. Mei, and C. Xie, "Tuning layernorm in attention: Towards efficient multi-modal llm finetuning," arXiv preprint arXiv:2312.11420, 2023
[161] S. Lee,“面向对话代理的持续学习”,arXiv 预印本 arXiv:1712.09943,2017
C.-H. Chang, M. Kayed, M. R. Girgis, 和 K. F. Shaalan, "网络信息提取系统调查," IEEE 知识与数据工程交易, vol. 18, no. 10, pp. 1411-1428, 2006.
[163] W. Yang, Y. Xie, A. Lin, X. Li, L. Tan, K. Xiong, M. Li, and J. Lin, "End-to-end open-domain question answering with bertserini," arXiv preprint arXiv:1902.01718, 2019
[163] W. Yang, Y. Xie, A. Lin, X. Li, L. Tan, K. Xiong, M. Li, 和 J. Lin, "使用 bertserini 进行端到端开放领域问答," arXiv 预印本 arXiv:1902.01718, 2019
[165] A. Madotto, Z. Lin, Z. Zhou, S. Moon, P. Crook, B. Liu, Z. Yu, E. Cho, and Z. Wang, "Continual learning in task-oriented dialogue systems," arXiv preprint arXiv:2012.15504, 2020
[166] Q. 朱,B. 李,F. 米,X. 朱和 M. 黄,“对话状态跟踪的持续提示调整”,arXiv 预印本 arXiv:2203.06654,2022。
[167] Y. Dai, H. Lang, Y. Zheng, F. Huang, L. Si, and Y. Li, "Lifelong learning for question answering with hierarchical prompts," arXiv preprint arXiv:2208.14602, 2022.
[167] 戴宇,郎辉,郑阳,黄飞,司亮,李勇,“具有分层提示的问答终身学习”,arXiv 预印本 arXiv:2208.14602,2022 年。
[170] S. Chen, S. Wong, L. Chen, and Y. Tian,“通过位置插值扩展大型语言模型的上下文窗口”,arXiv 预印本 arXiv:2306.15595,2023
[171] Y. Chen, S. Qian, H. Tang, X. Lai, Z. Liu, S. Han, and J. Jia, "Longlora: Efficient fine-tuning of long-context large language models," arXiv preprint arXiv:2309.12307, 2023.
[172] J. Yang,“Longqlora:扩展大型语言模型上下文长度的高效有效方法”,arXiv 预印本 arXiv:2311.04879,2023。
S. Tan, X. Li, S. Patil, Z. Wu, T. Zhang, K. Keutzer, J. E. Gonzalez, 和 R. A. Popa, "Lloco: 离线学习长上下文," arXiv 预印本 arXiv:2404.07979, 2024
T. Dettmers, M. Lewis, Y. Belkada 和 L. Zettlemoyer,“Gpt3. int8 (): 用于规模变压器的 8 位矩阵乘法”,《神经信息处理系统的进展》,第 35 卷,30318-30332 页,2022 年。
H. Kang, Q. Zhang, S. Kundu, G. Jeong, Z. Liu, T. Krishna, and T. Zhao, "Gear: An efficient kv cache compression recipefor nearlossless generative inference of 1lm," arXiv preprint arXiv:2403.05527, 2024.
康,张,昆都,郑,刘,克里希纳和赵,“Gear:一种高效的 kv 缓存压缩配方,用于接近无损生成推理 1lm”,arXiv 预印本 arXiv:2403.05527,2024。
[177] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly 等人,“一张图片胜过 言:规模化图像识别的 Transformer。arxiv 2020”,arXiv 预印本 arXiv:2010.11929,2010。
[178] A. Steiner, A. Kolesnikov, X. Zhai, R. Wightman, J. Uszkoreit, and L. Beyer, "如何训练您的视觉变压器?数据增强和正则化," arXiv 预印本 arXiv:2106.10270, 2021.
[179] X. Chen, S. Xie, 和 K. He, "一个关于自监督视觉 Transformer 训练的实证研究," 发表于 2021 年 IEEE/CVF 国际计算机视觉会议论文集, 页码 9640-9649.
[180] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, and R. Girshick, "Masked autoencoders are scalable vision learners," in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022, pp. .
【180】K. He, X. Chen, S. Xie, Y. Li, P. Dollár 和 R. Girshick, "Masked autoencoders are scalable vision learners," 发表于 2022 年 IEEE/CVF 计算机视觉与模式识别会议论文集, 第 页。
[181] M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. P. Steiner, M. Caron, R. Geirhos, I. Alabdulmohsin 等人,“将视觉 Transformer 扩展到 220 亿参数”,发表于机器学习国际会议。PMLR,2023 年,第 7480-7512 页。
[182] Z. Chen, Y. Duan, W. Wang, J. He, T. Lu, J. Dai, and Y. Qiao, "Vision transformer adapter for dense predictions," arXiv preprint arXiv:2205.08534, 2022
L. Ren, C. Chen, L. Wang, 和 K. Hua, "从视觉提示中学习语义代理以实现深度度量学习中的参数高效微调," arXiv 预印本 arXiv:2402.02340, 2024.
[186] M. Jia, L. Tang, B.-C. Chen, C. Cardie, S. Belongie, B. Hariharan, and S.-N. Lim,“视觉提示调整”,收录于欧洲计算机视觉大会。Springer,2022 年,页 709-727。
[187] S. Chen, C. Ge, Z. Tong, J. Wang, Y. Song, J. Wang, and P. Luo, "Adaptformer: Adapting vision transformers for scalable visual recognition," Advances in Neural Information Processing Systems, vol. 35, pp. .
【187】S. Chen, C. Ge, Z. Tong, J. Wang, Y. Song, J. Wang, 和 P. Luo, "Adaptformer: 为可扩展视觉识别调整视觉变换器," 神经信息处理系统进展, 第 35 卷, 第页。
S. Jie 和 Z.-H. Deng,“卷积旁路更好的视觉变换器适配器”,arXiv 预印本 arXiv:2207.07039,2022。
[189] S. Yoo, E. Kim, D. Jung, J. Lee, and S. Yoon, "Improving visual prompt tuning for self-supervised vision transformers," arXiv preprint arXiv:2306.05067, 2023.
[189] S. Yoo, E. Kim, D. Jung, J. Lee, 和 S. Yoon, "Improving visual prompt tuning for self-supervised vision transformers," arXiv 预印本 arXiv:2306.05067, 2023.
J. Pan, Z. Lin, X. Zhu, J. Shao, 和 H. Li, "St-adapter: Parameterefficient image-to-video transfer learning," Advances in Neural Information Processing Systems, vol. 35, pp. 26 462-26 477, 2022.
[192] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark 等人,“从自然语言监督中学习可转移的视觉模型”,发表于机器学习国际会议。PMLR,2021 年,第 8748-8763 页。
C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. Le, Y.-H. Sung, Z. Li, and T. Duerig, "通过嘈杂文本监督扩展视觉和视觉-语言表示学习规模," 在国际机器学习会议上. PMLR, 2021, pp. 4904-4916.
Y. Li, F. Liang, L. Zhao, Y. Cui, W. Ouyang, J. Shao, F. Yu, and J. Yan, "监督存在于各处:一种数据高效的对比语言图像预训练范式," arXiv 预印本 arXiv:2110.05208, 2021.
[198] Z. Xu, Z. Chen, Y. Zhang, Y. Song, X. Wan, and G. Li, "Bridging vision and language encoders: Parameter-efficient tuning for referring image segmentation," in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 17 503-17 512.
[198] 许 Z,陈 Z,张 Y,宋 Y,万 X 和李 G,“连接视觉和语言编码器:用于指代图像分割的参数高效调整”,在 2023 年 IEEE/CVF 国际计算机视觉会议论文集中,第 17 503-17 512 页。
R. Zhang, Z. Guo, W. Zhang, K. Li, X. Miao, B. Cui, Y. Qiao, P. Gao, and H. Li,“Pointclip: Point cloud understanding by clip,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 8552-8562.
[201] Z. Wang, X. Yu, Y. Rao, J. Zhou, and J. Lu, "P2p: Tuning pre-trained image models for point cloud analysis with point-to-pixel prompting," Advances in neural information processing systems, vol. 35, pp. .
【201】Z. Wang,X. Yu,Y. Rao,J. Zhou 和 J. Lu,“P2p:使用点到像素提示调整预训练图像模型以进行点云分析”,神经信息处理系统进展,第 35 卷,第页。
C. Ju, T. Han, K. Zheng, Y. Zhang, 和 W. Xie, "Prompting visuallanguage models for efficient video understanding," 在欧洲计算机视觉会议上。Springer, 2022, 页 105-124.
B. Ni, H. Peng, M. Chen, S. Zhang, G. Meng, J. Fu, S. Xiang, and H. Ling,“扩展语言-图像预训练模型以进行通用视频识别”,收录于欧洲计算机视觉大会。Springer,2022 年,页码 1-18。
[205] Z. 林,S. 耿,R. 张,P. 高,G. 德梅洛,X. 王,J. 戴,Y. 乔,和 H. 李,“冻结剪辑模型是高效的视频学习者,”在欧洲计算机视觉会议上。Springer,2022 年,第 388-404 页。
[206] Z. 韩,F. 朱,Q. 劳,和 H. 江,“通过图像和标题之间的结构相似性进行零样本指代表达理解”,arXiv 预印本 arXiv:2311.17048,2023。
S. Doveh, A. Arbelle, S. Harary, E. Schwartz, R. Herzig, R. Giryes, R. Feris, R. Panda, S. Ullman, and L. Karlinsky,“向视觉和语言模型教授结构化视觉和语言概念”,发表于 2023 年 IEEE/CVF 计算机视觉与模式识别会议论文集,页码 2657-2668。
[208] S. Nag, X. Zhu, Y.-Z. Song, and T. Xiang, "Zero-shot temporal action detection via vision-language prompting," in European Conference on Computer Vision. Springer, 2022, pp. 681-697.
【208】S. Nag, X. Zhu, Y.-Z. Song, 和 T. Xiang, "Zero-shot temporal action detection via vision-language prompting," 在欧洲计算机视觉会议上。Springer, 2022, 页 681-697。
[209] K. Zhou, J. Yang, C. C. Loy, and Z. Liu, "Learning to prompt for vision-language models," International Journal of Computer Vision, vol. 130, no. 9, pp. 2337-2348, 2022.
[209] K. Zhou, J. Yang, C. C. Loy, and Z. Liu, “学习为视觉-语言模型提供提示”,《计算机视觉国际期刊》,第 130 卷,第 9 期,页码 2337-2348,2022 年。
[211] B. 朱,Y. 牛,Y. 韩,Y. 吴和 H. 张,“用于提示调整的提示对齐梯度”,在 2023 年 IEEE/CVF 国际计算机视觉会议论文集中,第 15659-15669 页。
[212] M. U. Khattak, H. Rasheed, M. Maaz, S. Khan, and F. S. Khan, "Maple: Multi-modal prompt learning," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 19122
M. Shu, W. Nie, D.-A. Huang, Z. Yu, T. Goldstein, A. Anandkumar, 和 C. Xiao, "Test-time prompt tuning for zero-shot generalization in vision-language models," Advances in Neural Information Processing Systems, vol. 35, pp. 14274-14289, 2022.
[217] E. Orhan,“一种用于图像识别的简单缓存模型”,神经信息处理系统进展,第 31 卷,2018 年。
[218] E. Grave, M. M. Cisse, and A. Joulin, "Unbounded cache model for online language modeling with open vocabulary," Advances in neural information processing systems, vol. 30, 2017.
[218] E. Grave, M. M. Cisse, 和 A. Joulin, "Unbounded cache model for online language modeling with open vocabulary," Advances in neural information processing systems, vol. 30, 2017.
J. Ho, A. Jain, 和 P. Abbeel, "去噪扩散概率模型," 《神经信息处理系统进展》, vol. 33, pp. 6840-6851, 2020.
[220] J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, and S. Ganguli, "Deep unsupervised learning using nonequilibrium thermodynamics," in International conference on machine learning. PMLR, 2015, pp. .
[221] Z. 韩,Y. 王,L. 周,P. 王,B. 颜,J. 周,Y. 王,和 D. 沈,“具有辅助指导的对比扩散模型用于粗到细的宠物重建”,在医学图像计算与计算辅助干预国际会议上。Springer,2023 年,第 239-249 页。
F.-A. Croitoru、V. Hondru、R. T. Ionescu 和 M. Shah,“视觉中的扩散模型:一项调查”,《IEEE 模式分析与机器智能交易》,2023。
P. Dhariwal 和 A. Nichol,“扩散模型在图像合成方面击败了 GANs”,《神经信息处理系统进展》,第 34 卷,第 8780-8794 页,2021 年。
[225] N. Ruiz, Y. Li, V. Jampani, Y. Pritch, M. Rubinstein, and K. Aberman, "Dreambooth: Fine tuning text-to-image diffusion models for subjectdriven generation," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 22 500-22 510.
[225] N. Ruiz, Y. Li, V. Jampani, Y. Pritch, M. Rubinstein, 和 K. Aberman, "Dreambooth: Fine tuning text-to-image diffusion models for subjectdriven generation," 在 2023 年 IEEE/CVF 计算机视觉与模式识别会议论文集中, pp. 22 500-22 510.
[226] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, "High-resolution image synthesis with latent diffusion models," in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022, pp. .
[226] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer,“基于潜在扩散模型的高分辨率图像合成”,发表于 2022 年 IEEE/CVF 计算机视觉与模式识别会议论文集,第页。
W. Chai, D. Zheng, J. Cao, Z. Chen, C. Wang, 和 C. Ma, "Speedupnet: 用于加速文本到图像扩散模型的即插即用超网络," arXiv 预印本 arXiv:2312.08887, 2023.
[229] J. Z. Wu, Y. Ge, X. Wang, S. W. Lei, Y. Gu, Y. Shi, W. Hsu, Y. Shan, X. Qie, and M. Z. Shou,“Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation”,收录于 2023 年 IEEE/CVF 国际计算机视觉会议论文集,第 页。
[230] Z. Xing, Q. Dai, H. Hu, Z. Wu, and Y.-G. Jiang, "Simda: Simple diffusion adapter for efficient video generation," arXiv preprint arXiv:2308.09710, 2023.
[230] Z. 兴,Q. 戴,H. 胡,Z. 吴,和 Y.-G. 姜,“Simda:用于高效视频生成的简单扩散适配器”,arXiv 预印本 arXiv:2308.09710,2023。
[231] B. 曾,S. 李,Y. 冯,H. 李,S. 高,J. 刘,H. 李,X. 唐,J. 刘,和 B. 张,“Ipdreamer:具有图像提示的外观可控 3D 对象生成”,arXiv 预印本 arXiv:2310.05375,2023。
[232] J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds 等人,“Flamingo: 一种用于少样本学习的视觉语言模型”,《神经信息处理系统进展》,第 35 卷,第 23716-23736 页,2022 年。
张,A. 饶,和 M. Agrawala,"向文本到图像扩散模型添加条件控制",在 2023 年 IEEE/CVF 国际计算机视觉会议论文集中,第 3836-3847 页。
R. Gandikota、J. Materzynska、T. Zhou、A. Torralba 和 D. Bau,"概念滑块:扩散模型中的精确控制 Lora 适配器",arXiv 预印本 arXiv:2311.12092,2023。
C. Mou, X. Wang, L. Xie, Y. Wu, J. Zhang, Z. Qi, Y. Shan, and X. Qie,“T2i-adapter: 学习适配器以挖掘文本到图像扩散模型更可控的能力”,arXiv 预印本 arXiv:2302.08453,2023。
R. Gal、Y. Alaluf、Y. Atzmon、O. Patashnik、A. H. Bermano、G. Chechik 和 D. Cohen-Or,"一幅图像胜过千言万语:使用文本反演个性化文本到图像生成",arXiv 预印本 arXiv:2208.01618,2022。
[237] N. Kumari, B. Zhang, R. Zhang, E. Shechtman, and J.-Y. Zhu, "文本到图像扩散的多概念定制," in 2023 年 IEEE/CVF 计算机视觉与模式识别会议论文集, pp. 1931-1941.
H. 叶,J. 张,S. 刘,X. 韩和 W. 杨,“Ip-adapter:用于文本到图像扩散模型的文本兼容图像提示适配器”,arXiv 预印本 arXiv:2308.06721,2023
[240] G. Team, R. Anil, S. Borgeaud, Y. Wu, J.-B. Alayrac, J. Yu, R. Soricut, J. Schalkwyk, A. M. Dai, A. Hauth 等人,“Gemini: 一系列高性能多模型”,arXiv 预印本 arXiv:2312.11805,2023。
Y. Sheng, S. Cao, D. Li, C. Hooper, N. Lee, S. Yang, C. Chou, B. Zhu, L. Zheng, K. Keutzer 等人,“S-lora:为数千个并发 lora 适配器提供服务”,arXiv 预印本 arXiv:2311.03285,2023。
L. Chen, Z. Ye, Y. Wu, D. Zhuo, L. Ceze, 和 A. Krishnamurthy, "Punica: 多租户 lora 服务," arXiv 预印本 arXiv:2310.18547, 2023.
S. Mangrulkar, S. Gugger, L. Debut, Y. Belkada, S. Paul, 和 B. Bossan, "Peft: 最先进的参数高效微调方法," https://github.com/huggingface/peft 2022.
C. Poth, H. Sterz, I. Paul, S. Purkayastha, L. Engländer, T. Imhof, I. Vulić, S. Ruder, I. Gurevych, 和 J. Pfeiffer, "适配器:用于参数高效和模块化迁移学习的统一库," 2023.
[248] K. Chen, J. Wang, J. Pang, Y. Cao, Y. Xiong, X. Li, S. Sun, W. Feng, Z. Liu, J. Xu, Z. Zhang, D. Cheng, C. Zhu, T. Cheng, Q. Zhao, B. Li, X. Lu, R. Zhu, Y. Wu, J. Dai, J. Wang, J. Shi, W. Ouyang, C. C. Loy, and D. Lin, "MMDetection: Open mmlab detection toolbox and benchmark," arXiv preprint arXiv:1906.07155, 2019.
[248] K. Chen, J. Wang, J. Pang, Y. Cao, Y. Xiong, X. Li, S. Sun, W. Feng, Z. Liu, J. Xu, Z. Zhang, D. Cheng, C. Zhu, T. Cheng, Q. Zhao, B. Li, X. Lu, R. Zhu, Y. Wu, J. Dai, J. Wang, J. Shi, W. Ouyang, C. C. Loy, and D. Lin, "MMDetection: Open mmlab detection toolbox and benchmark," arXiv preprint arXiv:1906.07155, 2019.
张绍强,谭泰,库埃瓦斯,魏光宇和布鲁克斯,"骆驼:为高效的设备端学习共同设计 ai 模型和嵌入式 DRAM",arXiv 预印本 arXiv:2305.03148,2023。
T. Brooks, B. Peebles, C. Holmes, W. DePue, Y. Guo, L. Jing, D. Schnurr, J. Taylor, T. Luhman, E. Luhman, C. Ng, R. Wang, and A. Ramesh,“视频生成模型作为世界模拟器”,2024 年。[在线]。可访问:https://openai.com/research/video-generation-models-as-world-simulators
[251] A. Gu 和 T. Dao, "Mamba: 具有选择性状态空间的线性时间序列建模," arXiv 预印本 arXiv:2312.00752, 2023.
Y. Bai, X. Geng, K. Mangalam, A. Bar, A. Yuille, T. Darrell, J. Malik, and A. A. Efros,"序列建模实现大视觉模型的可扩展学习",arXiv 预印本 arXiv:2312.00785,2023。
Dosovitskiy 和 T. Brox,“使用卷积网络反转视觉表示”,发表于 2016 年 IEEE 计算机视觉和模式识别会议论文集,第 4829-4837 页。
[254] Z. He, T. Zhang, and R. B. Lee, "Model inversion attacks against collaborative inference," in Proceedings of the 35th Annual Computer Security Applications Conference, 2019, pp. 148-162.
[254] Z. He, T. Zhang, 和 R. B. Lee, "Model inversion attacks against collaborative inference," 在第 35 届年度计算机安全应用会议论文集中, 2019, 页码 148-162.