我正在尝试使用Python中的xpath模块从HTML文档中提取表。如果我打印下载的HTML,我会看到完整的DOM。但是,当我使用xpath.get时,它会给我一个tbody部分,但不是我想要的部分,当然不是唯一应该存在的部分。这是脚本。
import requests
from webscraping import download, xpath
D = download.Download()
url = 'http://labs.mementoweb.org/timemap/json/http://www.awebsiteimscraping.com'
r = requests.get(url)
data = []
mementos = r.json()['mementos']['list']
for memento in mementos:
data.append(D.get(memento['uri']))
# print xpath.get(data[10], '//table')
print type(data[0])
# print data[10]
print len(data)
我对此很新,所以如果重要的话就是idk,但是数据中的每个元素的类型都是'是str。
答案 0 :(得分:2)
使用 json.loads()
将数据类型转换为dict试试这个,
import requests
import json
from webscraping import download, xpath
D = download.Download()
url = 'http://labs.mementoweb.org/timemap/json/http://www.awebsiteimscraping.com'
r = requests.get(url)
data = []
mementos = r.json()['mementos']['list']
for memento in mementos:
data.append(D.get(memento['uri']))
# print xpath.get(data[10], '//table')
print type(data[0])
# print data[10]
print len(data)
json_data = json.loads(data)
print type(json_data[0])