贾佳亚韩松联合团队提出大模型微调方法 LongLoRA，可轻松让大模型上下文窗口倍增

惊蛰财经 • 2023年10月3日 am12:55 • 未分类 • 阅读 256

据量子位 10 月 1 日报道，来自香港中文大学和 MIT 的贾佳亚韩松联合团队提出基于 LoRA 的全新大模型微调方法 LongLoRA 登上 GitHub 热榜。据悉，该方法只要两行代码 + 11 个小时微调，就能把大模型 4k 的窗口长度提高到 32k。规模上，最长可以扩展到 10 万 token，一口气就能读完长篇小说的多个章节或中短篇小说。介绍称，在一台 8 个 A100 组成的单机上，增大窗口长度的速度比全量微调快数倍。

本文链接：https://www.8btc.com/article/6834438
转载请注明文章出处

原创文章，作者：惊蛰财经，如若转载，请注明出处：http://www.xmlm.net/bhq/26934.html

惊蛰财经