将CSV字段和提取链接分离到单独的Python-DocX段落

时间:2017-11-21 12:22:01

标签: python csv python-docx

我正在开发一个Python项目,该项目采用CSV输出文件并重新格式化数据并使用Python-DocX将其放入Word文档中。到目前为止所做的一切都很好,但是在同一个字段中使用多个超链接会导致所有链接指向该集合的第一个链接。

目前,这是导致此问题的代码:

        p7 = document.add_paragraph()
        hyperlink = add_hyperlink(p7, row['See Also'], str(row['See Also']))

如您所见,初始化空白段落,然后为其分配超链接。 row ['See Also']是包含我需要使用的链接的行。有些条目包含一个链接,有些条目包含很多。

这个(https://github.com/python-openxml/python-docx/issues/74)是根据Python-Docx的文档化方法添加超链接的函数:

def add_hyperlink(paragraph, url, text):
    # This gets access to the document.xml.rels file and gets a new relation id value
    part = paragraph.part
    r_id = part.relate_to(
        url, docx.opc.constants.RELATIONSHIP_TYPE.HYPERLINK,
        is_external=True
    )

    # Create the w:hyperlink tag and add needed values
    hyperlink = docx.oxml.shared.OxmlElement('w:hyperlink')
    hyperlink.set(docx.oxml.shared.qn('r:id'), r_id, )

    # Create a w:r element
    new_run = docx.oxml.shared.OxmlElement('w:r')

    # Create a new w:rPr element
    rPr = docx.oxml.shared.OxmlElement('w:rPr')

    # Join all the xml elements together add add the required text to the w:r element
    new_run.append(rPr)
    new_run.text = text
    hyperlink.append(new_run)

    paragraph._p.append(hyperlink)

    return hyperlink

我认为这样做的方法是使用for循环迭代字段中的每个超链接并将它们分配给每个段落,这样超链接应该可以正常工作。我尝试了以下但是这只会创建1000个无法正常工作的链接。

for x in row['See Also']:
    p = document.add_paragraph()
    hyperlink = add_hyperlink(p, row['See Also'], row['See Also'])

我目前正在测试一个非常小的CSV文件,其中只有两组数据如下:

https://www.openssl.org/blog/blog/2016/08/24/sweet32/

这当然没有问题,超链接按预期工作,但是以下内容会导致所有链接指向第一个地址。

https://downloads.avaya.com/elmodocs2/security/ASA-2006-217.htm
http://www.kb.cert.org/vuls/id/JARL-5ZQR4D
http://www-01.ibm.com/support/docview.wss?uid=isg1IY55949
http://www-01.ibm.com/support/docview.wss?uid=isg1IY55950
http://www-01.ibm.com/support/docview.wss?uid=isg1IY62006
http://www.juniper.net/support/security/alerts/niscc-236929.txt
http://technet.microsoft.com/en-us/security/bulletin/ms05-019
http://technet.microsoft.com/en-us/security/bulletin/ms06-064
http://www.kb.cert.org/vuls/id/JARL-5YGQ9G
http://www.kb.cert.org/vuls/id/JARL-5ZQR7H
http://www.kb.cert.org/vuls/id/JARL-5YGQAJ
http://www.nessus.org/u?cf64c2ca
https://isc.sans.edu/diary.html?date=2004-04-20

修复可能非常简单,对此问题的任何帮助都将不胜感激。

2 个答案:

答案 0 :(得分:0)

您没有提供足够的上下文代码来显示详细信息,但我怀疑您的问题是在行中:

for x in row['See Also']:

如果你跑:

for x in row['See Also']:
    print x

我想你会得到:

h
t
t
p
s
:
...

如您所见,使用字符串值作为for循环中的iterable迭代字符串的字符。

我认为你需要的是:

for row in csv_rows:
    p = document.add_paragraph()
    hyperlink = add_hyperlink(p, row['See Also'], row['See Also'])

答案 1 :(得分:0)

找出问题,以下代码解决了这个问题:

for row in csv_rows:
        links = row['See Also'].split("\n")
        for item in links:
            p = document.add_paragraph()
            hyperlink = add_hyperlink(p, item, item)

这会将“See Also”行的每一行拆分成一个列表,然后迭代此列表,每个项目都会变成一个超链接。