Question

像 python docx 这样的软件包在这种情况下是无效的，因为它用于创建和更新Docx文件。即使我得到全文，我也可以制作一些算法从中提取链接。需要帮助！

Answer 1

如果您的所有链接都以handleLogin或http://开头，则可以使用正则表达式。从这篇文章中，所说的正则表达式为www.

如果您使用的是Python 3，可以尝试：

\b(?:https?://|www\.)\S+\b

来源：Python文档

如果这是正确的，这将找到以import re doc = '...' # use PythonDocx to put the text in here matches = re.search('\b(?:https?://|www\.)\S+\b',doc) if matches: print(matches(0))，doc或http://开头的https://内的所有文字并打印出来。

更新：哎呀，错误的解决方案

从python-docx文档中，这是一个可行的解决方案：

www.

我的Python有点生疏，所以我可能犯了错误。

如何使用python从docx文件中提取URL？

1 个答案: