当前位置:首页 > 系统教程 > 正文

Linux服务器下载Hugging Face模型指南(无需本地中转,直接下载到远程服务器)

Linux服务器下载Hugging Face模型指南(无需本地中转,直接下载到远程服务器)

Hugging Face 是全球最大的机器学习模型和数据集托管平台,但很多时候我们需要在远程Linux服务器上直接下载模型,而不是先下载到本地再上传。本文将详细介绍多种在Linux服务器上直接下载Hugging Face模型和数据集的方法,适合初学者。

准备工作

确保服务器已安装Python和pip,以及git。下面我们将介绍四种方法:Hugging Face模型下载的CLI工具、Git LFS、wget和Python脚本。

方法一:使用Hugging Face CLI(最简单)

Hugging Face官方提供了命令行工具huggingface-cli,可以方便地下载模型和数据集。首先安装Hugging Face CLI

    pip install huggingface-hub  

如果需要下载需要登录的模型(如gated模型),先登录:

    huggingface-cli login  

然后下载模型,例如下载BERT基础模型:

    huggingface-cli download google-bert/bert-base-uncased --local-dir ./bert-model  

下载数据集,例如imdb:

    huggingface-cli download stanfordnlp/imdb --repo-type dataset --local-dir ./imdb-data  
Linux服务器下载Hugging Face模型指南(无需本地中转,直接下载到远程服务器) Hugging Face模型下载  Linux服务器数据集下载 Face CLI Git LFS 第1张

方法二:使用Git LFS下载完整仓库

对于包含大文件的模型仓库,推荐使用Git LFS。首先安装Git LFS:

    # Ubuntusudo apt updatesudo apt install git-lfsgit lfs install  

然后直接clone模型仓库:

    git clone https://huggingface.co/google-bert/bert-base-uncased  

Git LFS会自动下载大文件。这种方式适合需要整个仓库所有文件的场景,也是Linux服务器数据集下载的常用方法之一。

方法三:使用wget下载单个文件

如果你只需要模型中的某个文件(如config.json或pytorch_model.bin),可以在Hugging Face文件页面获取下载链接,然后用wget:

    wget -c https://huggingface.co/google-bert/bert-base-uncased/resolve/main/config.json  

-c选项支持断点续传。

方法四:使用Python脚本(huggingface_hub)

在Python脚本中,可以使用Hugging Face模型下载的底层函数:

    from huggingface_hub import hf_hub_downloadmodel_id = "google-bert/bert-base-uncased"filename = "pytorch_model.bin"downloaded_path = hf_hub_download(repo_id=model_id, filename=filename)print(f"下载到: {downloaded_path}")  

如果需要下载整个仓库,可以使用snapshot_download函数。

注意事项

  • 网络问题:如果服务器在国内,可能需要设置代理或使用镜像站。可以通过环境变量HF_ENDPOINT指定镜像,例如export HF_ENDPOINT=https://hf-mirror.com
  • 认证:对于私有模型,必须使用Hugging Face CLI登录或设置token。
  • 磁盘空间:确保有足够空间。

总结

本文介绍了四种在Linux服务器上直接下载Hugging Face模型和数据集的方法,包括Hugging Face CLIGit LFS、wget和Python脚本。根据需求选择合适的方法,可以高效地完成Linux服务器数据集下载和模型部署。希望本教程对你有帮助!