日志

分析：如何在算力租赁平台微调 LLaMA 2 模型RTX 4090微调大模型详解

已有 4 次阅读2025-7-26 15:12

Meta比较近推出了Llama2，这是广受认可的Llama模型的比较新版本，训练数据增加了40%。考虑到像Llama这样的开源大型语言模型(LLM)的迅速流行，这个新模型的发布令人激动不已。LlamaLLM与其他大型语言模型有一些相似之处，但它是免费的，这为竞争提供了公平的条件。Llama2是在一个巨大的公开在线文本和代码数据集上进行预训练的。经过微调的模型Llama-2-chat是在该数据集以及超过100万条人工注释上进行训练的。这些模型催生了Vicuna和Falcon等受欢迎的后代。据相关报道，a100云主机租赁在很大一部分程度上引领着市场行情的变化。深圳市捷智算科技有限公司一家AI算力租赁平台，提供多样化的GPU服务器出租服务，包括NVIDIA A100、A800、H100和H800全系列高性能显卡。适合AI大模型训练GPU集群和大模型训练算力租赁，我们的解决方案支持企业快速扩展数据处理能力，优化成本效益。https://www.gogpu.cn/news/detail/211.html

同时，开源社区推出了大量旨在微调和部署这些语言模型的用程序。Peft、Bitsandbytes和TRL等工具允许在GPURAM中法容纳完整精度模型的机器上微调LLM。

这篇博文的目的是指导您如何在捷智算平台上微调Llama2模型。我们已经在RTX3090、RTX4090和A100SMX480GB上对此进行了基准测试。

基准

RTX4090展示了令人印象深刻的158位样本秒，批处理大小为8。考虑到批处理大小，这几乎是在A100上运行的两倍！考虑到RTX4090的价格为050美元小时，与A100的价格150美元小时相比，其性能价格大约是6倍。

此处，样本秒的计算方法是将批处理大小乘以sft_trainer脚本报告的siter的倒数。所有训练运行的梯度累积步长都等于1。

如何在捷智算平台上自行运行

请参阅本帖的其余部分，了解如何使用TRL在捷智算平台上微调LLaMA2的指南。

注册Meta和HuggingFace以获取访问权限：

1-在此处请求Meta访问权限：aimetacomresourcesmodels-and-librariesllama-downloads2-在任意外围模特页面上向HuggingFace请求访问权限：huggingfacecometa-llamaLlama-2-7b3-在此处使用HuggingFace设置身份验证令牌：s:huggingfacecosettingstokens

您需要同时执行1和2才能访问LLaMA2。

在捷智算平台上租用强大的GPU

捷智算平台提供RTX3090、RTX4090和A100供按需租赁。我们的定价通常是您在上能找到的比较惠的价格。

要运行LLaMA2微调，您需要在所选机器上使用Pytorch映像。为此，请单击控制台链接，它将选择我们推荐的Pytorch模板，其中启用了SSH并启用了其他设置。如果您尚未设置帐户，没问题！您需要先通过注册电子邮件、验证电子邮件，然后购买积分来速设置捷智算帐户。

要租用机器，选择过滤器，选择RTX3090或RTX4090。将界面左侧的存储滑块移至~30GB，这样您的例就有足够的存储空间来下载模型权重。

点击租用按钮启动例。加载完成后，点击蓝色

设置环境

设置您需要的软件包：pipinstalltransformerspefttrlbitsandbytesscipy

克隆训练脚本的TRLrepogitclonegithubcomlvwerratrl

通过CLI登录HuggingFacehuggingface-clilogin

复制您之前创建的身份验证令牌（来自huggingfacecosettingstokens），并在系统询问时将其粘贴到提示中。您可以拒绝将令牌添加到您的git凭据中。

微调！

pythontrlexamplesscriptssft_trainerpy--model_namemeta-llamaLlama-2-7b-hf--dataset_nametimdettmersopenassistant-guanaco--load_in_8bit--use_peft--batch_size8--gradient_accumulation_steps1

这将自动下载模型权重，因此首次运行时，需要一点时间才能真正开始训练。数据集在此处指定，并使用openassistant-guanaco集。如果您想尝试加载4位版本或更改批处理大小，请修改该命令。

您比较终应该会看到如下输出：{'loss':16493,'learning_rate':14096181965881397e-05,'epoch':00}{'loss':13571,'learning_rate':14092363931762796e-05,'epoch':00}{'loss':15853,'learning_rate':14088545897644193e-05,'epoch':00}{'loss':14237,'learning_rate':1408472786352559e-05,'epoch':00}{'loss':17098,'learning_rate':14080909829406987e-05,'epoch':00}{'loss':14348,'learning_rate':14077091795288384e-05,'epoch':00}{'loss':16022,'learning_rate':1407327376116978e-05,'epoch':001}{'loss':13352,'learning_rate':140694557270177e-05,'epoch':001}

概括

与A100相比，使用RTX4090在捷智算平台上的性能价格比相当令人印象深刻。在这篇文章中，我们展示了如何轻松启动成本极低的GPU（每小时020美元）并微调LLaMA2模型。

路过

鸡蛋

鲜花

握手

tbjk的个人空间 http://www.0871dxs.com/?11086 [收藏] [复制] [分享] [RSS]

日志

分析：如何在算力租赁平台微调 LLaMA 2 模型RTX 4090微调大模型详解

全部作者的其他最新日志

评论 (0 个评论)

tbjk