像 python docx 这样的软件包在这种情况下是无效的,因为它用于创建和更新Docx文件。 即使我得到全文,我也可以制作一些算法从中提取链接。 需要帮助!
答案 0 :(得分:0)
如果您的所有链接都以handleLogin
或http://
开头,则可以使用正则表达式。从这篇文章中,所说的正则表达式为www.
如果您使用的是Python 3,可以尝试:
\b(?:https?://|www\.)\S+\b
来源:Python文档
如果这是正确的,这将找到以import re
doc = '...' # use PythonDocx to put the text in here
matches = re.search('\b(?:https?://|www\.)\S+\b',doc)
if matches:
print(matches(0))
,doc
或http://
开头的https://
内的所有文字并打印出来。
更新:哎呀,错误的解决方案
从python-docx文档中,这是一个可行的解决方案:
www.
我的Python有点生疏,所以我可能犯了错误。