Question

我正在尝试使用Python中的xpath模块从HTML文档中提取表。如果我打印下载的HTML，我会看到完整的DOM。但是，当我使用xpath.get时，它会给我一个tbody部分，但不是我想要的部分，当然不是唯一应该存在的部分。这是脚本。

import requests
from webscraping import download, xpath
D = download.Download()
url = 'http://labs.mementoweb.org/timemap/json/http://www.awebsiteimscraping.com'
r = requests.get(url)
data = []
mementos = r.json()['mementos']['list']
for memento in mementos:
    data.append(D.get(memento['uri']))
# print xpath.get(data[10], '//table')
print type(data[0])
# print data[10]
print len(data)

我对此很新，所以如果重要的话就是idk，但是数据中的每个元素的类型都是＆＃39;是str。

Answer 1

使用 json.loads（）

将数据类型转换为dict

试试这个，

import requests
import json
from webscraping import download, xpath
D = download.Download()
url = 'http://labs.mementoweb.org/timemap/json/http://www.awebsiteimscraping.com'
r = requests.get(url)
data = []
mementos = r.json()['mementos']['list']
for memento in mementos:
    data.append(D.get(memento['uri']))
# print xpath.get(data[10], '//table')
print type(data[0])
# print data[10]
print len(data)
json_data = json.loads(data)
print type(json_data[0])

XPATH不从HTML Python中提取表

1 个答案: