Question

无法从网页中提取字段数据，这不是常见的网页抓取问题。它也与javascript相关联。我也尝试使用python-requests，但无法解决问题。

我正在尝试从网页中提取doi。 Doi位于javascript中。我能够阅读该页面，并且代码可以正常使用{print（soup）}。当我尝试提取doi值时（在给定的代码中，对于示例网页，doi如下：“ doi”：“ 10.1109 / LAWP.2014.2364296”）我想打印“ 10.1109 / LAWP.2014.2364296”从网页中提取。

import urllib
from bs4 import BeautifulSoup
web_page = 'https://ieeexplore.ieee.org/document/6933872'
page = urllib.request.urlopen(web_page)
soup = BeautifulSoup(page, 'html.parser')        
print(soup)
soup.body.findAll(text='doi')

使用网页“ https://ieeexplore.ieee.org/document/6933872”时，输出为 10.1109 / LAWP.2014.2364296。我该怎么办？

Answer 1

一个可能跳过Javascript Web抓取问题的解决方案是使用IEEE API（https://developer.ieee.org/）。尽管他们确实需要注册和批准才能获得API密钥，但一旦获得它，就可以更轻松地发送一堆IEEE产品编号并以结构化的方式获取其DOI和其他元数据。

使用python代码从IEEEXplore网站提取DOI

1 个答案: