如何克隆仅Git存储库的子目录?

时间:2009-03-01 16:46:33

标签: git repository subdirectory git-clone

我有我的Git存储库,它在根目录下有两个子目录:

/finisht
/static

当这个位于SVN时,/finisht已在一个地方签出,而/static则在其他位置签出,如下所示:

svn co svn+ssh://admin@domain.com/home/admin/repos/finisht/static static

有没有办法用Git做到这一点?

20 个答案:

答案 0 :(得分:1442)

您尝试执行的操作称为稀疏结帐,并且该功能已添加到git 1。7。0(2012年2月)中。执行稀疏克隆的步骤如下:

mkdir <repo>
cd <repo>
git init
git remote add -f origin <url>

这将使用您的遥控器创建一个空存储库,并获取所有对象但不会将其检出。然后做:

git config core.sparseCheckout true

现在您需要定义要实际检出的文件/文件夹。这可以通过在.git/info/sparse-checkout中列出来完成,例如:

echo "some/dir/" >> .git/info/sparse-checkout
echo "another/sub/tree" >> .git/info/sparse-checkout

最后但并非最不重要的是,使用远程状态更新您的空仓库:

git pull origin master

现在,您的文件系统上的some/diranother/sub/tree文件已“已检出”(这些路径仍然存在),并且不存在其他路径。

您可能需要查看extended tutorial,您应该阅读官方documentation for sparse checkout

作为一项功能:

function git_sparse_clone() (
  rurl="$1" localdir="$2" && shift 2

  mkdir -p "$localdir"
  cd "$localdir"

  git init
  git remote add -f origin "$rurl"

  git config core.sparseCheckout true

  # Loops over remaining args
  for i; do
    echo "$i" >> .git/info/sparse-checkout
  done

  git pull origin master
)

用法:

git_sparse_clone "http://github.com/tj/n" "./local/location" "/bin"

请注意,这仍然会从服务器下载整个存储库 - 只会减少结帐的大小。目前,无法仅克隆单个目录。但是,如果您不需要存储库的历史记录,则可以通过创建浅层克隆来至少节省带宽。有关如何组合浅udondan's answer和稀疏结帐的信息,请参阅下面的clone

答案 1 :(得分:515)

编辑:从Git 2.19开始,最终可能会出现这种情况,如以下答案所示:https://stackoverflow.com/a/52269934/2988

考虑回答这个问题。

注意:在Git 2.19中,仅实现了客户端支持,仍然缺少服务器端支持,因此它仅在克隆本地存储库时有效。另请注意大型Git托管服务商,例如GitHub,实际上并没有使用Git服务器,他们使用自己的实现,所以即使支持显示在Git服务器上,它也不会自动意味着它可以在Git托管服务器上运行。 (OTOH,因为他们不使用Git服务器,他们可以在它们自己的实现中更快地实现它,然后才能显示在Git服务器中。)


不,这在Git中是不可能的。

在Git中实现类似的功能将是一项重大工作,这意味着无法再保证客户端存储库的完整性。如果您有兴趣,请在git邮件列表上搜索关于“稀疏克隆”和“稀疏获取”的讨论。

一般来说,Git社区的共识是,如果您有多个目录总是独立检出,那么这些实际上是两个不同的项目,应该存在于两个不同的存储库中。您可以使用Git Submodules将它们粘合在一起。

答案 2 :(得分:370)

您可以结合使用稀疏结帐浅层克隆功能。 浅层克隆会切断历史记录,稀疏结帐只会提取与您的模式匹配的文件。

git init <repo>
cd <repo>
git remote add origin <url>
git config core.sparsecheckout true
echo "finisht/*" >> .git/info/sparse-checkout
git pull --depth=1 origin master

你需要最低限度的git 1.9来实现这个目标。仅使用2.2.0和2.2.2对自己进行了测试。

通过这种方式,您仍然可以推送,这是git archive无法实现的。

答案 3 :(得分:174)

git clone --filter来自Git 2.19

此选项实际上将跳过从服务器获取不需要的对象:

git clone --depth 1 --no-checkout --filter=blob:none \
  "file://$(pwd)/server_repo" local_repo
cd local_repo
git checkout master -- mydir/

服务器应配置为:

git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1

对Git远程协议进行了扩展,以支持v2.19.0中的此功能,但当时不支持服务器。但是它已经可以在本地测试。

TODO:--filter=blob:none跳过所有blob,但仍获取所有树对象。但是在正常的仓库中,与文件本身相比,它应该很小,所以已经足够了。在以下位置被问到:https://www.spinics.net/lists/git/msg342006.html开发人员回答说,--filter=tree:0正在这样做。

请记住,--depth 1已经暗示--single-branch,另请参见:How do I clone a single branch in Git?

file://$(path)必须克服git clone协议的恶作剧:How to shallow clone a local git repository with a relative path?

--filter的格式记录在man git-rev-list上。

Git树上的文档:

进行测试

#!/usr/bin/env bash
set -eu

list-objects() (
  git rev-list --all --objects
  echo "master commit SHA: $(git log -1 --format="%H")"
  echo "mybranch commit SHA: $(git log -1 --format="%H")"
  git ls-tree master
  git ls-tree mybranch | grep mybranch
  git ls-tree master~ | grep root
)

# Reproducibility.
export GIT_COMMITTER_NAME='a'
export GIT_COMMITTER_EMAIL='a'
export GIT_AUTHOR_NAME='a'
export GIT_AUTHOR_EMAIL='a'
export GIT_COMMITTER_DATE='2000-01-01T00:00:00+0000'
export GIT_AUTHOR_DATE='2000-01-01T00:00:00+0000'

rm -rf server_repo local_repo
mkdir server_repo
cd server_repo

# Create repo.
git init --quiet
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1

# First commit.
# Directories present in all branches.
mkdir d1 d2
printf 'd1/a' > ./d1/a
printf 'd1/b' > ./d1/b
printf 'd2/a' > ./d2/a
printf 'd2/b' > ./d2/b
# Present only in root.
mkdir 'root'
printf 'root' > ./root/root
git add .
git commit -m 'root' --quiet

# Second commit only on master.
git rm --quiet -r ./root
mkdir 'master'
printf 'master' > ./master/master
git add .
git commit -m 'master commit' --quiet

# Second commit only on mybranch.
git checkout -b mybranch --quiet master~
git rm --quiet -r ./root
mkdir 'mybranch'
printf 'mybranch' > ./mybranch/mybranch
git add .
git commit -m 'mybranch commit' --quiet

echo "# List and identify all objects"
list-objects
echo

# Restore master.
git checkout --quiet master
cd ..

# Clone. Don't checkout for now, only .git/ dir.
git clone --depth 1 --quiet --no-checkout --filter=blob:none "file://$(pwd)/server_repo" local_repo
cd local_repo

# List missing objects from master.
echo "# Missing objects after --no-checkout"
git rev-list --all --quiet --objects --missing=print
echo

echo "# Git checkout fails without internet"
mv ../server_repo ../server_repo.off
! git checkout master
echo

echo "# Git checkout fetches the missing directory from internet"
mv ../server_repo.off ../server_repo
git checkout master -- d1/
echo

echo "# Missing objects after checking out d1"
git rev-list --all --quiet --objects --missing=print

GitHub upstream

Git v2.19.0中的输出:

# List and identify all objects
c6fcdfaf2b1462f809aecdad83a186eeec00f9c1
fc5e97944480982cfc180a6d6634699921ee63ec
7251a83be9a03161acde7b71a8fda9be19f47128
62d67bce3c672fe2b9065f372726a11e57bade7e
b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
308150e8fddde043f3dbbb8573abb6af1df96e63 d1/a
f70a17f51b7b30fec48a32e4f19ac15e261fd1a4 d1/b
84de03c312dc741d0f2a66df7b2f168d823e122a d2
0975df9b39e23c15f63db194df7f45c76528bccb d2/a
41484c13520fcbb6e7243a26fdb1fc9405c08520 d2/b
7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
8b25206ff90e9432f6f1a8600f87a7bd695a24af master/master
ef29f15c9a7c5417944cc09711b6a9ee51b01d89
19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
1b671b190e293aa091239b8b5e8c149411d00523 mybranch/mybranch
c3760bb1a0ece87cdbaf9a563c77a45e30a4e30e
a0234da53ec608b54813b4271fbf00ba5318b99f root
93ca1422a8da0a9effc465eccbcb17e23015542d root/root
master commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
mybranch commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
040000 tree b64bf435a3e54c5208a1b70b7bcb0fc627463a75    d1
040000 tree 84de03c312dc741d0f2a66df7b2f168d823e122a    d2
040000 tree 7d5230379e4652f1b1da7ed1e78e0b8253e03ba3    master
040000 tree 19f7a4ca4a038aff89d803f017f76d2b66063043    mybranch
040000 tree a0234da53ec608b54813b4271fbf00ba5318b99f    root

# Missing objects after --no-checkout
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
?308150e8fddde043f3dbbb8573abb6af1df96e63

# Git checkout fails without internet
fatal: '/home/ciro/bak/git/test-git-web-interface/other-test-repos/partial-clone.tmp/server_repo' does not appear to be a git repository
fatal: Could not read from remote repository.

Please make sure you have the correct access rights
and the repository exists.

# Git checkout fetches the missing directory from internet
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.

# Missing objects after checking out d1
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb

结论:d1/之外的所有斑点都丢失了。例如。检出0975df9b39e23c15f63db194df7f45c76528bccb后,d2/b(即d1/a)不存在。

请注意,root/rootmybranch/mybranch也丢失了,但是--depth 1将其从丢失的文件列表中隐藏了。如果您删除--depth 1,则它们将显示在丢失的文件列表中。

我有一个梦

此功能可能会改变Git。

想象一下,拥有in a single repo而不是ugly third-party tools like repo的企业所有代码库。

想象storing huge blobs directly in the repo without any ugly third party extensions

想象一下,如果GitHub允许per file / directory metadata之类的星号和权限,那么您可以将所有个人资料存储在一个存储库中。

想象一下,如果submodules were treated exactly like regular directories:仅请求一个树SHA和一个DNS-like mechanism resolves your request,首先查看您的local ~/.git,然后首先查看更近的服务器(您企业的镜像/缓存),然后结束在GitHub上。

答案 4 :(得分:116)

对于 只想从github下载 文件/文件夹的其他用户,只需使用:

svn export <repo>/trunk/<folder>

e.g。

svn export https://github.com/lodash/lodash.com/trunk/docs

(是的,这是svn在这里。显然在2016年你仍然需要svn来简单地下载一些github文件)

礼貌:Download a single folder or directory from a GitHub repo

重要 - 确保更新github网址并将/tree/master/替换为'/ trunk /'。

作为bash脚本:

git-download(){
    folder=${@/tree\/master/trunk}
    folder=${folder/blob\/master/trunk}
    svn export $folder
}

注意 此方法下载文件夹,不克隆/签出。您无法将更改推送回存储库。另一方面 - 与稀疏结账或浅结账相比,这会导致更小的下载。

答案 5 :(得分:68)

如果您从未计划与克隆的存储库进行交互,则可以执行完整的 git clone 并使用 git filter-branch --subdirectory-filter 。这样,至少会保留历史记录。

答案 6 :(得分:63)

Git 1.7.0有“稀疏结账”。看到 git config manpage中的“core.sparseCheckout”, git read-tree manpage中的“稀疏结账”,以及 git update-index manpage中的“Skip-worktree bit”。

接口不如SVN那么方便(例如,在初始克隆时无法进行稀疏检出),但现在可以构建更简单接口的基本功能。

答案 7 :(得分:61)

This看起来更简单:

git archive --remote=<repo_url> <branch> <path> | tar xvf -

答案 8 :(得分:28)

仅使用Git克隆子目录是不可能的,但下面是几个解决方法。

过滤器分支

您可能希望重写存储库,使其看起来好像trunk/public_html/已成为其项目根目录,并丢弃所有其他历史记录(使用filter-branch),尝试已经结帐的分支:

git filter-branch --subdirectory-filter trunk/public_html -- --all

注意:用于将过滤器分支选项与修订选项分开的--,以及用于重写所有分支和标记的--all。所有信息(包括原始提交时间或合并信息)都将保留。此命令用于尊重.git/info/grafts文件并在refs/replace/命名空间中引用,因此如果您定义了任何移植或替换refs,则运行此命令将使其永久化。

  

警告!重写的历史将具有所有对象的不同对象名称,并且不会与原始分支会聚。您将无法在原始分支的顶部轻松推送和分发重写的分支。如果您不知道完整的含义,请不要使用此命令,并且无论如何都要避免使用它,如果简单的单个提交就足以解决您的问题。

稀疏结账

以下是使用sparse checkout方法的简单步骤,它将稀疏地填充工作目录,因此您可以告诉Git工作目录中哪些文件夹或文件值得检出。

  1. 像往常一样克隆存储库(--no-checkout是可选的):

    git clone --no-checkout git@foo/bar.git
    cd bar
    

    如果您已经克隆了您的存储库,则可以跳过此步骤。

    提示:对于大型回购,请考虑shallow clone--depth 1)仅签出最新修订版或/和仅--single-branch

  2. 启用sparseCheckout选项:

    git config core.sparseCheckout true
    
  3. 指定稀疏结帐的文件夹(末尾没有空格):

    echo "trunk/public_html/*"> .git/info/sparse-checkout
    

    或修改.git/info/sparse-checkout

  4. 签出分支(例如master):

    git checkout master
    
  5. 现在您应该在当前目录中选择了文件夹。

    如果你有太多级别的目录或过滤分支,你可以考虑使用符号链接。

答案 9 :(得分:9)

wrote a script我只是GitHub

用法:

python get_git_sub_dir.py path/to/sub/dir <RECURSIVE>

答案 10 :(得分:5)

这是我为单个子目录稀疏结帐的用例编写的shell脚本

coSubDir.sh

localRepo=$1
remoteRepo=$2
subDir=$3


# Create local repository for subdirectory checkout, make it hidden to avoid having to drill down to the subfolder
mkdir ./.$localRepo
cd ./.$localRepo
git init
git remote add -f origin $remoteRepo
git config core.sparseCheckout true

# Add the subdirectory of interest to the sparse checkout.
echo $subDir >> .git/info/sparse-checkout

git pull origin master

# Create convenience symlink to the subdirectory of interest
cd ..
ln -s ./.$localRepo$subDir $localRepo

答案 11 :(得分:4)

仅在这里澄清一些很棒的答案,许多答案中概述的步骤都假定您已经在某个地方有一个远程存储库。

给出:现有的git存储库,例如git@github.com:some-user/full-repo.git,其中有一个或多个您希望独立提取回购其余部分的 目录,例如名为app1app2的目录

假设您具有上述的git存储库...

然后:您可以运行以下步骤从较大的存储库中仅个特定目录:

mkdir app1
cd app1
git init
git remote add origin git@github.com:some-user/full-repo.git
git config core.sparsecheckout true
echo "app1/" >> .git/info/sparse-checkout
git pull origin master

我错误地认为必须在原始存储库上设置稀疏签出选项:事实并非如此。在从远程目录中拉出之前,您可以在本地定义想要的目录。希望这个澄清对其他人有帮助。

答案 12 :(得分:2)

这将克隆一个特定的文件夹并删除所有与该文件夹无关的历史记录。

git clone --single-branch -b {branch} git@github.com:{user}/{repo}.git
git filter-branch --subdirectory-filter {path/to/folder} HEAD
git remote remove origin
git remote add origin git@github.com:{user}/{new-repo}.git
git push -u origin master

答案 13 :(得分:1)

使用Linux?并且只想要易于访问和清理工作树?无需打扰计算机上的其余代码。尝试符号链接

git clone https://github.com:{user}/{repo}.git ~/my-project
ln -s ~/my-project/my-subfolder ~/Desktop/my-subfolder

测试

cd ~/Desktop/my-subfolder
git status

答案 14 :(得分:1)

如果您实际上只对目录的最新修订文件感兴趣,可以使用Github将存储库下载为Zip文件,其中不包含历史记录。因此下载速度非常快。

答案 15 :(得分:1)

这里有很多很好的回应,但我想补充一点,在 Windows Sever 2016 上使用目录名称周围的引号对我来说是失败的。文件根本没有被下载。

代替

"mydir/myfolder"

我不得不使用

mydir/myfolder

此外,如果您只想下载所有子目录,只需使用

git sparse-checkout set *

答案 16 :(得分:0)

我写了.gitconfig [alias]用于执行“稀疏签出”。签出(无双关语):

在Windows中,cmd.exe

git config --global alias.sparse-checkout "!f(){ [ $# -eq 2 ] && L=${1##*/} L=${L%.git} || L=$2; mkdir -p \"$L/.git/info\" && cd \"$L\" && git init --template= && git remote add origin \"$1\" && git config core.sparseCheckout 1; [ $# -eq 2 ] && echo \"$2\" >> .git/info/sparse-checkout || { shift 2; for i; do echo $i >> .git/info/sparse-checkout; done }; git pull --depth 1 origin master;};f"

否则:

git config --global alias.sparse-checkout '!f(){ [ $# -eq 2 ] && L=${1##*/} L=${L%.git} || L=$2; mkdir -p "$L/.git/info" && cd "$L" && git init --template= && git remote add origin "$1" && git config core.sparseCheckout 1; [ $# -eq 2 ] && echo "$2" >> .git/info/sparse-checkout || { shift 2; for i; do echo $i >> .git/info/sparse-checkout; done }; git pull --depth 1 origin master;};f'

用法

# Makes a directory ForStackExchange with Plug checked out
git sparse-checkout https://github.com/YenForYang/ForStackExchange Plug

# To do more than 1 directory, you have to specify the local directory:
git sparse-checkout https://github.com/YenForYang/ForStackExchange ForStackExchange Plug Folder

为方便和存储起见,git config命令已“最小化”,但这是扩展的别名:

# Note the --template= is for disabling templates.
# Feel free to remove it if you don't have issues with them (like I did)
# `mkdir` makes the .git/info directory ahead of time, as I've found it missing sometimes for some reason
f(){
    [ "$#" -eq 2 ] && L="${1##*/}" L=${L%.git} || L=$2;
    mkdir -p "$L/.git/info"
        && cd "$L"
        && git init --template=
        && git remote add origin "$1"
        && git config core.sparseCheckout 1;
    [ "$#" -eq 2 ]
        && echo "$2" >> .git/info/sparse-checkout
        || {
            shift 2;
            for i; do
                echo $i >> .git/info/sparse-checkout;
            done
        };
    git pull --depth 1 origin master;
};
f

答案 17 :(得分:0)

虽然我讨厌在处理git repos时实际上不得不使用svn:/我一直都在使用它;

function git-scp() (
  URL="$1" && shift 1
  svn export ${URL/blob\/master/trunk}
)

这使您无需修改​​即可从github url复制出来。用法;

--- /tmp » git-scp https://github.com/dgraph-io/dgraph/blob/master/contrib/config/kubernetes/helm                                                                                                                  1 ↵
A    helm
A    helm/Chart.yaml
A    helm/README.md
A    helm/values.yaml
Exported revision 6367.

--- /tmp » ls | grep helm
Permissions Size User    Date Modified    Name
drwxr-xr-x     - anthony 2020-01-07 15:53 helm/

答案 18 :(得分:0)

上面有很多好主意和脚本。我忍不住把它们组合成一个带有帮助和错误检查的 bash 脚本:

#!/bin/bash

function help {
  printf "$1
Clones a specific directory from the master branch of a git repository.

Syntax:
  $(basename $0) [--delrepo] repoUrl sourceDirectory [targetDirectory]

If targetDirectory is not specified it will be set to sourceDirectory.
Downloads a sourceDirectory from a Git repository into targetdirectory.
If targetDirectory is not specified, a directory named after `basename sourceDirectory`
will be created under the current directory.

If --delrepo is specified then the .git subdirectory in the clone will be removed after cloning.


Example 1:
Clone the tree/master/django/conf/app_template directory from the master branch of
git@github.com:django/django.git into ./app_template:

\$ $(basename $0) git@github.com:django/django.git django/conf/app_template

\$ ls app_template/django/conf/app_template/
__init__.py-tpl  admin.py-tpl  apps.py-tpl  migrations  models.py-tpl  tests.py-tpl  views.py-tpl


Example 2:
Clone the django/conf/app_template directory from the master branch of
https://github.com/django/django/tree/master/django/conf/app_template into ~/test:

\$ $(basename $0) git@github.com:django/django.git django/conf/app_template ~/test

\$ ls test/django/conf/app_template/
__init__.py-tpl  admin.py-tpl  apps.py-tpl  migrations  models.py-tpl  tests.py-tpl  views.py-tpl

"
  exit 1
}

if [ -z "$1" ]; then help "Error: repoUrl was not specified.\n"; fi
if [ -z "$2" ]; then help "Error: sourceDirectory was not specified."; fi

if [ "$1" == --delrepo ]; then
  DEL_REPO=true
  shift
fi

REPO_URL="$1"
SOURCE_DIRECTORY="$2"
if [ "$3" ]; then
  TARGET_DIRECTORY="$3"
else
  TARGET_DIRECTORY="$(basename $2)"
fi

echo "Cloning into $TARGET_DIRECTORY"
mkdir -p "$TARGET_DIRECTORY"
cd "$TARGET_DIRECTORY"
git init
git remote add origin -f "$REPO_URL"
git config core.sparseCheckout true

echo "$SOURCE_DIRECTORY" > .git/info/sparse-checkout
git pull --depth=1 origin master

if [ "$DEL_REPO" ]; then rm -rf .git; fi

答案 19 :(得分:-1)

因此,我尝试了此脚步中的所有操作,但对我没有任何帮助...事实证明,在Git 2.24版本(此答案发布时cpanel附带的版本)上,您不需要这样做< / p>

echo "wpm/*" >> .git/info/sparse-checkout

您需要的只是文件夹名称

wpm/*

简而言之,您可以这样做

git config core.sparsecheckout true

然后编辑.git / info / sparse-checkout 并在文件名末尾添加/ *(每行一个),以获取子文件夹和文件

wpm/*

保存并运行checkout命令

git checkout master

结果是我的存储库中的预期文件夹,仅此而已 如果这对您有用,请投票