Meta比较近推出了Llama2,这是广受认可的Llama模型的比较新版本,训练数据增加了40%。考虑到像Llama这样的开源大型语言模型(LLM)的迅速流行,这个新模型的发布令人激动不已。LlamaLLM与其他大型语言模型有一些相似之处,但它是免费的,这为竞争提供了公平的条件。Llama2是在一个巨大的公开在线文本和代码数据集上进行预训练的。经过微调的模型Llama-2-chat是在该数据集以及超过100万条人工注释上进行训练的。这些模型催生了Vicuna和Falcon等受欢迎的后代。据相关报道,a100云主机租赁在很大一部分程度上引领着市场行情的变化。深圳市捷智算科技有限公司一家AI算力租赁平台,提供多样化的GPU服务器出租服务,包括NVIDIA A100、A800、H100和H800全系列高性能显卡。适合AI大模型训练GPU集群和大模型训练算力租赁,我们的解决方案支持企业快速扩展数据处理能力,优化成本效益。https://www.gogpu.cn/news/detail/211.html
同时,开源社区推出了大量旨在微调和部署这些语言模型的用程序。Peft、Bitsandbytes和TRL等工具允许在GPURAM中法容纳完整精度模型的机器上微调LLM。
这篇博文的目的是指导您如何在捷智算平台上微调Llama2模型。我们已经在RTX3090、RTX4090和A100SMX480GB上对此进行了基准测试。
基准
RTX4090展示了令人印象深刻的158位样本秒,批处理大小为8。考虑到批处理大小,这几乎是在A100上运行的两倍!考虑到RTX4090的价格为050美元小时,与A100的价格150美元小时相比,其性能价格大约是6倍。
此处,样本秒的计算方法是将批处理大小乘以sft_trainer脚本报告的siter的倒数。所有训练运行的梯度累积步长都等于1。
如何在捷智算平台上自行运行
请参阅本帖的其余部分,了解如何使用TRL在捷智算平台上微调LLaMA2的指南。
注册Meta和HuggingFace以获取访问权限:
1-在此处请求Meta访问权限:aimetacomresourcesmodels-and-librariesllama-downloads2-在任意外围模特页面上向HuggingFace请求访问权限:huggingfacecometa-llamaLlama-2-7b3-在此处使用HuggingFace设置身份验证令牌:s:huggingfacecosettingstokens
您需要同时执行1和2才能访问LLaMA2。
在捷智算平台上租用强大的GPU
捷智算平台提供RTX3090、RTX4090和A100供按需租赁。我们的定价通常是您在上能找到的比较惠的价格。
要运行LLaMA2微调,您需要在所选机器上使用Pytorch映像。为此,请单击控制台链接,它将选择我们推荐的Pytorch模板,其中启用了SSH并启用了其他设置。如果您尚未设置帐户,没问题!您需要先通过注册电子邮件、验证电子邮件,然后购买积分来速设置捷智算帐户。
要租用机器,选择过滤器,选择RTX3090或RTX4090。将界面左侧的存储滑块移至~30GB,这样您的例就有足够的存储空间来下载模型权重。
点击租用按钮启动例。加载完成后,点击蓝色
设置环境
设置您需要的软件包:pipinstalltransformerspefttrlbitsandbytesscipy
克隆训练脚本的TRLrepogitclonegithubcomlvwerratrl
通过CLI登录HuggingFacehuggingface-clilogin
复制您之前创建的身份验证令牌(来自huggingfacecosettingstokens),并在系统询问时将其粘贴到提示中。您可以拒绝将令牌添加到您的git凭据中。
微调!
pythontrlexamplesscriptssft_trainerpy--model_namemeta-llamaLlama-2-7b-hf--dataset_nametimdettmersopenassistant-guanaco--load_in_8bit--use_peft--batch_size8--gradient_accumulation_steps1
这将自动下载模型权重,因此首次运行时,需要一点时间才能真正开始训练。数据集在此处指定,并使用openassistant-guanaco集。如果您想尝试加载4位版本或更改批处理大小,请修改该命令。
您比较终应该会看到如下输出:{'loss':16493,'learning_rate':14096181965881397e-05,'epoch':00}{'loss':13571,'learning_rate':14092363931762796e-05,'epoch':00}{'loss':15853,'learning_rate':14088545897644193e-05,'epoch':00}{'loss':14237,'learning_rate':1408472786352559e-05,'epoch':00}{'loss':17098,'learning_rate':14080909829406987e-05,'epoch':00}{'loss':14348,'learning_rate':14077091795288384e-05,'epoch':00}{'loss':16022,'learning_rate':1407327376116978e-05,'epoch':001}{'loss':13352,'learning_rate':140694557270177e-05,'epoch':001}
概括
与A100相比,使用RTX4090在捷智算平台上的性能价格比相当令人印象深刻。在这篇文章中,我们展示了如何轻松启动成本极低的GPU(每小时020美元)并微调LLaMA2模型。
手机版| 云南专升本论坛 ( 沪ICP备2020029027号 )
GMT+8, 2025-8-2 18:55 , Processed in 0.059558 second(s), 18 queries .
Powered by 云南专升本论坛
© 2002-2019 www.0871dxs.com