Python3中HTML页面源代码中的唯一短语

时间:2018-01-29 09:38:08

标签: python html

我正在试图弄清楚如何让Python3显示HTML文档中的某个短语。例如,我将使用搜索引擎https://duckduckgo.com

我希望代码为“var error = document.getElementById”执行键搜索并让它显示括号中的内容,在这种情况下,它将是“error_homepage” 。任何帮助将不胜感激。

import urllib.request
u = input ('Please enter URL: ')
x = urllib.request.urlopen(u)
print(x.read())

1 个答案:

答案 0 :(得分:0)

您可以使用urllib.request阅读感兴趣的网站,并使用正则表达式搜索检索到的HTML / JS / ...代码:

import re
import urllib.request

# the URL that data is read from
url = "http://..."

# the regex pattern for extracting element IDs
pattern = r"var error = document.getElementById\(['\"](?P<element_id>[a-zA-Z0-9_-]+)['\"]\);"

# fetch HTML code
with urllib.request.urlopen(url) as f:
    html = f.read().decode("utf8")

# extract element IDs
for m in re.findall(pattern, html):
    print(m)