注册论坛 登录
云南专升本论坛 返回首页

tbjk的个人空间 http://www.0871dxs.com/?11086 [收藏] [复制] [分享] [RSS]

日志

分析:如何在算力租赁平台微调 LLaMA 2 模型RTX 4090微调大模型详解

已有 4 次阅读2025-7-26 15:12

Meta比较近推出了Llama2,这是广受认可的Llama模型的比较新版本,训练数据增加了40%。考虑到像Llama这样的开源大型语言模型(LLM)的迅速流行,这个新模型的发布令人激动不已。LlamaLLM与其他大型语言模型有一些相似之处,但它是免费的,这为竞争提供了公平的条件。Llama2是在一个巨大的公开在线文本和代码数据集上进行预训练的。经过微调的模型Llama-2-chat是在该数据集以及超过100万条人工注释上进行训练的。这些模型催生了Vicuna和Falcon等受欢迎的后代。据相关报道,a100云主机租赁在很大一部分程度上引领着市场行情的变化。深圳市捷智算科技有限公司一家AI算力租赁平台,提供多样化的GPU服务器出租服务,包括NVIDIA A100、A800、H100和H800全系列高性能显卡。适合AI大模型训练GPU集群和大模型训练算力租赁,我们的解决方案支持企业快速扩展数据处理能力,优化成本效益。https://www.gogpu.cn/news/detail/211.html

同时,开源社区推出了大量旨在微调和部署这些语言模型的用程序。Peft、Bitsandbytes和TRL等工具允许在GPURAM中法容纳完整精度模型的机器上微调LLM。

这篇博文的目的是指导您如何在捷智算平台上微调Llama2模型。我们已经在RTX3090、RTX4090和A100SMX480GB上对此进行了基准测试。

基准

RTX4090展示了令人印象深刻的158位样本秒,批处理大小为8。考虑到批处理大小,这几乎是在A100上运行的两倍!考虑到RTX4090的价格为050美元小时,与A100的价格150美元小时相比,其性能价格大约是6倍。

此处,样本秒的计算方法是将批处理大小乘以sft_trainer脚本报告的siter的倒数。所有训练运行的梯度累积步长都等于1。

如何在捷智算平台上自行运行

请参阅本帖的其余部分,了解如何使用TRL在捷智算平台上微调LLaMA2的指南。

注册Meta和HuggingFace以获取访问权限:

1-在此处请求Meta访问权限:aimetacomresourcesmodels-and-librariesllama-downloads2-在任意外围模特页面上向HuggingFace请求访问权限:huggingfacecometa-llamaLlama-2-7b3-在此处使用HuggingFace设置身份验证令牌:s:huggingfacecosettingstokens

您需要同时执行1和2才能访问LLaMA2。

在捷智算平台上租用强大的GPU

捷智算平台提供RTX3090、RTX4090和A100供按需租赁。我们的定价通常是您在上能找到的比较惠的价格。

要运行LLaMA2微调,您需要在所选机器上使用Pytorch映像。为此,请单击控制台链接,它将选择我们推荐的Pytorch模板,其中启用了SSH并启用了其他设置。如果您尚未设置帐户,没问题!您需要先通过注册电子邮件、验证电子邮件,然后购买积分来速设置捷智算帐户。

要租用机器,选择过滤器,选择RTX3090或RTX4090。将界面左侧的存储滑块移至~30GB,这样您的例就有足够的存储空间来下载模型权重。

点击租用按钮启动例。加载完成后,点击蓝色

设置环境

设置您需要的软件包:pipinstalltransformerspefttrlbitsandbytesscipy

克隆训练脚本的TRLrepogitclonegithubcomlvwerratrl

通过CLI登录HuggingFacehuggingface-clilogin

复制您之前创建的身份验证令牌(来自huggingfacecosettingstokens),并在系统询问时将其粘贴到提示中。您可以拒绝将令牌添加到您的git凭据中。

微调!

pythontrlexamplesscriptssft_trainerpy--model_namemeta-llamaLlama-2-7b-hf--dataset_nametimdettmersopenassistant-guanaco--load_in_8bit--use_peft--batch_size8--gradient_accumulation_steps1

这将自动下载模型权重,因此首次运行时,需要一点时间才能真正开始训练。数据集在此处指定,并使用openassistant-guanaco集。如果您想尝试加载4位版本或更改批处理大小,请修改该命令。

您比较终应该会看到如下输出:{'loss':16493,'learning_rate':14096181965881397e-05,'epoch':00}{'loss':13571,'learning_rate':14092363931762796e-05,'epoch':00}{'loss':15853,'learning_rate':14088545897644193e-05,'epoch':00}{'loss':14237,'learning_rate':1408472786352559e-05,'epoch':00}{'loss':17098,'learning_rate':14080909829406987e-05,'epoch':00}{'loss':14348,'learning_rate':14077091795288384e-05,'epoch':00}{'loss':16022,'learning_rate':1407327376116978e-05,'epoch':001}{'loss':13352,'learning_rate':140694557270177e-05,'epoch':001}

概括

与A100相比,使用RTX4090在捷智算平台上的性能价格比相当令人印象深刻。在这篇文章中,我们展示了如何轻松启动成本极低的GPU(每小时020美元)并微调LLaMA2模型。


路过

鸡蛋

鲜花

握手

雷人

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 注册论坛

手机版| 云南专升本论坛 ( 沪ICP备2020029027号 )

GMT+8, 2025-8-2 18:55 , Processed in 0.059558 second(s), 18 queries .

Powered by 云南专升本论坛

© 2002-2019 www.0871dxs.com

返回顶部