Guanaco原驼

83次阅读

Guanaco原驼

Guanaco原驼官网

Guanaco原驼,微调LLaMA模型框架,效果直逼GPT-4
网站服务:Guanaco,原驼。

Guanaco原驼官网,微调LLaMA模型框架,效果直逼GPT-4

什么是Guanaco原驼?

华盛顿大学的NLP小组提出了一种名为QLoRA的方法,可以在拥有48GB显存的显卡上微调拥有650亿参数的LLaMA模型,而且据称性能几乎没有损失。QLoRA是一种新的方法,可以在单个GPU上微调大型语言模型。最近,华盛顿大学的研究人员使用QLoRA方法开发了Guanaco,这是一个基于Meta的LLaMA模型的聊天机器人系列。其中最大的Guanaco变体拥有650亿个参数,并在与GPT-4进行基准测试时实现了超过99%与ChatGPT(GPT-3.5-turbo、相近的性能。Guanaco参考网址:  https://github.com/artidoro/qlora  

Guanaco技术细节

QLoRA方法是在LLaMA模型的框架下提出的,它包含了以下核心技术原理和与其他方法的区别:

  1. 4位NormalFloat:这种理论上最优的量化数据类型用于处理正态分布的数据,优于4位整数和4位浮点数。
  2. Double Quantization:通过对量化常数进行量化,可以减少平均内存占用,每个参数平均可以节省约0.37个bits(对于650亿参数的模型来说,大约节省3GB、。
  3. Paged Optimizers:使用NVIDIA统一内存来避免处理小批量长序列时的梯度检查点内存峰值。

通过QLoRA方法,研究人员在测试中微调了数千个模型,结果显示基于QLoRA方法微调的Guanaco模型在性能上超越了目前所有的开源模型,甚至比ChatGPT更强大,并接近GPT-4。Guanaco模型包括四个版本,从70亿参数到650亿参数,所有版本都将开源。这项研究还包含了大量与大模型相关的数据和结论,建议阅读原始论文以获取更详细的信息。论文涵盖了不同模型的显存占用、当前大模型评测基准的偏差等内容。QLoRA方法的提出是为了解决如何有效微调大型语言模型以优化其性能的问题。尽管大型模型具有强大的能力,但对于特定领域的数据集来说,微调仍然是必要的,因为企业和个人可能具有特定领域的专有数据和知识,而通用模型的零-shot能力难以扩展到这些特定领域中。QLoRA方法为在48GB显存的显卡上微调大模型提供了解决方案,通过量化和其他优化方法,它降低了显存要求并保持了原始模型的性能。总之,QLoRA方法在大模型微调中具有潜力,可以提供更高效的显存使用和优越的性能,进一步推动语言模型领域的研究和应用。QLoRA是一种新的方法,可以在单个GPU上微调大型语言模型。最近,华盛顿大学的研究人员使用QLoRA方法开发了Guanaco,这是一个基于Meta的LLaMA模型的聊天机器人系列。其中最大的Guanaco变体拥有650亿个参数,并在与GPT-4进行基准测试时实现了超过99%与ChatGPT(GPT-3.5-turbo、相近的性能。微调大型语言模型是提高性能和训练效果的关键技术之一。然而,这个过程对于大型模型来说计算量非常庞大,例如LLaMA65B模型可能需要超过780GB的GPU显存。尽管开源社区已经使用各种量化方法将16位模型压缩为4位模型,从而大大减少了推理过程所需的内存,但在微调过程中尚未采用类似的方法。QLoRA方法填补了这一空白,使得在单个GPU上微调大型语言模型成为可能。它通过使用新的量化方法和内存优化技术,有效地降低了显存需求,并保持了原始模型的性能。Guanaco聊天机器人的发布进一步证明了QLoRA方法的可行性和实用性。Guanaco系列模型在性能上几乎与ChatGPT相当,而显存占用明显较低。这意味着开发人员和研究人员可以在相对较小的计算资源下训练和微调性能强大的大型语言模型,从而加速自然语言处理和人工智能领域的创新。需要注意的是,尽管QLoRA方法和Guanaco模型在研究和学术领域取得了显著进展,但目前还不允许商业用途。然而,这一领域的不断发展和优化为未来的商业应用打下了坚实的基础。QLoRA方法的提出为微调大型语言模型带来了新的可能性,尤其是在资源受限的环境中。它为研究人员和开发者提供了更灵活、高效的工具,以加速自然语言处理和人工智能技术的发展,为未来的创新铺平了道路。研究人员通过QLoRA方法展示了一种将LLaMA等模型量化为4位并进行微调的方法,并引入了Guanaco模型作为示例。通过这种方法,他们成功地将650亿参数模型的内存需求从超过780GB降低到不到48GB的GPU内存,并获得了与微调16位模型相当的结果。QLoRA方法的出现标志着大型语言模型微调的可访问性取得了重大突破,成为迄今为止在单个GPU上微调的最大公开可用模型。该研究团队进行了多次实验,训练了超过1000个模型,用于测试QLoRA和不同微调数据集的影响。他们的研究发现,数据的质量比任务的数量更为重要。在训练聊天机器人时,使用OpenAssistant数据集上的人类样本训练的模型比使用FLANv2数据集上的大量样本训练的模型表现更好。因此,Guanaco模型主要依赖于OpenAssistant数据集。通过QLoRA方法训练的Guanaco模型系列表现出色,其中第二好的模型以330亿个参数在基准测试中实现了97.8%的ChatGPT性能,并且仅用不到12小时的时间在单个普通GPU上完成训练。在专业级GPU上,具有650亿个参数的最大模型仅用24小时就达到了99.3%的ChatGPT性能。最小的Guanaco模型只有70亿个参数,仅需要5GB的GPU内存,在Vicuna基准测试中表现出超过26GB羊驼模型20个百分点以上的性能。除了QLoRA和Guanaco模型,该研究团队还发布了OpenAssistant基准测试,供模型之间相互竞争,并由人类或GPT-4对结果进行评分。然而,该研究团队指出,数学能力和4位推理速度仍存在问题,他们希望能提高推理速度,预计速度将提高8至16倍。微调是将大型语言模型转变为像ChatGPT这样的聊天机器人的重要工具,研究人员相信QLoRA方法将使微调更加易于实现,特别是对于资源有限的研究人员而言。他们认为,这对于自然语言处理领域尖端技术的可访问性是一个巨大的胜利。除了微调当今最大的语言模型,研究人员还展望了在移动硬件上应用私有模型的可能性。他们表示,QLoRA还将在手机上实现隐私保护微调,预计每晚使用iPhone 12 Plus可微调300万个单词。这意味着,将来我们将能够在手机上运行针对每个应用程序的特定大型语言模型。更多关于Guanaco-33B的信息和代码可以在GitHub上查看。

Guanaco原驼网址入口

https://github.com/artidoro/qlora

小编发现Guanaco原驼网站非常受用户欢迎,请访问Guanaco原驼网址入口试用。

前往AI网址导航

正文完
 0
微草录
版权声明:本站原创文章,由 微草录 2024-01-03发表,共计2870字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。