我正在试图弄清楚如何让Python3显示HTML文档中的某个短语。例如,我将使用搜索引擎https://duckduckgo.com。
我希望代码为“var error = document.getElementById”执行键搜索并让它显示括号中的内容,在这种情况下,它将是“error_homepage” 。任何帮助将不胜感激。
import urllib.request
u = input ('Please enter URL: ')
x = urllib.request.urlopen(u)
print(x.read())
答案 0 :(得分:0)
您可以使用urllib.request
阅读感兴趣的网站,并使用正则表达式搜索检索到的HTML / JS / ...代码:
import re
import urllib.request
# the URL that data is read from
url = "http://..."
# the regex pattern for extracting element IDs
pattern = r"var error = document.getElementById\(['\"](?P<element_id>[a-zA-Z0-9_-]+)['\"]\);"
# fetch HTML code
with urllib.request.urlopen(url) as f:
html = f.read().decode("utf8")
# extract element IDs
for m in re.findall(pattern, html):
print(m)