在两个正则表达式之间查找文本

时间:2013-06-25 14:47:35

标签: python regex text python-3.x

我正在开展一个项目,我需要将来自GitHub项目的git log –p信息放入数据库中。首先,我将git log –p放入 .txt 文件中,然后使用Python进行扫描。 (Python对我来说有点新鲜。)

git log –p的结构如下所示:

commit 5f0883381054b796b643dcff974435633eed8a79
Merge: 4e1d5f7 8ffg9do
Author: name <email>
Date:   date of commit

    "comment of the commit"

diff --…
index …
--- …
+++ …
@@ …
-…
+…
 …

diff --…
index …
--- …
+++ …
@@ …

commit 737044517f403c1080886a674845fad9c42d6bc0
Author: name <email>
Date:   date of commit

   completion: …

   Signed-off-by: name <email>
   Signed-off-by: name <email>

commit 6bf931a54fd66826f28d2808b7ad822024764d41
Merge: 727a46b 3646b1a
Author: name <email>
Date:   date of commit

   Merge branch …

   * …:
     completion: …
     completion: …
     completion: …

commit c3c327deeaf018e727a27f5ae88e140ff7a48595
Author: name <email>
Date:   date

目前,我很容易通过正则表达式获得提交,合并,作者,日期行。

    for line in source:

        commit = re.findall('^commit.{41}',line)
        merge = re.findall('^Merge:.*',line)
        author = re.findall('^Author:.*',line)
        date = re.findall('^Date:.*',line)
        signed = re.findall('Signed-off-by:.*', line)
        diffBlock = re.findall("^['diff''index'+-@].*", line) # bad way, I miss few lines


        for commitLine in commit:
            print (commitLine)
            #post into DB

        for mergeLine in merge:
            print (mergeLine)
            #post into DB
        .
        .
        .

但是,每次找到提交行时,切割git log -p的好方法就是拆分。然后在这些不同的块上工作。 我还需要从提交中获取注释块和所有“diff”块,这些块在多行上。

当我想要将两个提交之间的整个文本放在一个变量中时,我有一个问题...使用正则表达式^commit.{41}(.*?)^commit.{41}(我将不得不考虑最后一次提交git日志,因为它不会以提交行结束)。 我稍后需要diffBlock的相同方法。

我尝试了很多东西......比如这样,但它不能正常工作。它找到了很少的集团,但不是全部......(这可能是"\n"的问题,我不知道)

content = open("catchCommitBlock.txt","rt", encoding="ISO-8859-1").read() #testing file
commitBlock = re.compile("^commit.{41}(.*?)^commit.{41}",re.DOTALL|re.M)
i=0
while i < len (commitBlock.findall(content)):
    print (commitBlock.findall(content)[i])
    i+=1

你知道我怎么能解决这个问题吗?

P.S。如果我不清楚某事,请告诉我^^

1 个答案:

答案 0 :(得分:0)

为什么不为Python使用(uni)diff解析器库?例如this