如何使用python从docx文件中提取URL?

时间:2017-06-23 15:04:33

标签: python ms-word docx

python docx 这样的软件包在这种情况下是无效的,因为它用于创建和更新Docx文件。 即使我得到全文,我也可以制作一些算法从中提取链接。 需要帮助!

1 个答案:

答案 0 :(得分:0)

如果您的所有链接都以handleLoginhttp://开头,则可以使用正则表达式。从这篇文章中,所说的正则表达式为www.

如果您使用的是Python 3,可以尝试:

\b(?:https?://|www\.)\S+\b

来源:Python文档

如果这是正确的,这将找到以import re doc = '...' # use PythonDocx to put the text in here matches = re.search('\b(?:https?://|www\.)\S+\b',doc) if matches: print(matches(0)) dochttp://开头的https://内的所有文字并打印出来。

更新:哎呀,错误的解决方案

从python-docx文档中,这是一个可行的解决方案:

www.

我的Python有点生疏,所以我可能犯了错误。