一般来说,我是HTML的新手,我只是想制作一个自动化脚本。 我在python中使用HTML解析器编写了一些代码。我想知道是否可以在无需编写自己的编译器形式的情况下将输出转换为变量?如果有人可以告诉我我正在查看什么样的信息,或者有人可以参考我正在寻找的图书馆类型,那将是很好的。
这是我的代码
from html.parser import HTMLParser
from html.entities import name2codepoint
import codecs
class MyHTMLParser(HTMLParser):
def __init__(self, *, convert_charrefs=True):
self.convert_charrefs = convert_charrefs
self.output = "";
self.reset()
def handle_data(self, data):
if ("@type\": \"Movie" in data):
#print("Encountered some data :", data)
self.output = data
def getOutput(self):
return self.output
f=codecs.open("Joker (2019) - IMDb.html", 'r')
code = f.read()
parser = MyHTMLParser()
parser.feed(code)
parser.feed(parser.getOutput())
print(parser.getOutput())
这是我的输出
"@context": "http://schema.org",
"@type": "Movie",
"url": "/title/tt7286456/",
"name": "Joker",
"image": "https://m.media-amazon.com/images/M/MV5BNGVjNWI4ZGUtNzE0MS00YTJmLWE0ZDctN2ZiYTk2YmI3NTYyXkEyXkFqcGdeQXVyMTkxNjUyNQ@@._V1_.jpg",
"genre": [
"Crime",
"Drama",
"Thriller"
],