如何下载huggingface库中的部分文件夹

当我们想要从huggingface的datasets中下载数据集时,我们每一次并不是需要所有的数据,往往一部分数据就够了,在这种情况下,则需要一个方法能够下载其中的指定文件或者文件夹的内容。

在这里,我使用的是基于git clone的一种方法:

# 1. 创建并进入新目录(可选)
mkdir kinetics400-driving-car && cd kinetics400-driving-car

# 2. 初始化空 Git 仓库
git init

# 3. 添加远程仓库地址
git remote add origin https://huggingface.co/datasets/liuhuanjim013/kinetics400

# 4. 启用稀疏检出功能
git config core.sparseCheckout true

# 5. 指定要克隆的目录路径(包含空格需用引号)
echo "videos/driving car/" >> .git/info/sparse-checkout

# 6. 拉取指定分支内容(这里使用 main 分支)
git pull --depth=1 origin main

# 下面两步看情况使用
# 7. 启用 Git LFS(数据集包含大文件)
git lfs install

# 8. 拉取 LFS 文件内容
git lfs pull

在这个样例中,我需要下载的是liuhuanjim013/kinetics400库中的videos/driving car文件夹下面的内容

在设置好稀疏检出之后,直接pull即可