我正在尝试制作一个Python脚本,该脚本将以html格式为我检索PhysRevPER文章,以便我可以将它们放在Kindle上并从我的办公桌(和互联网连接)上阅读。但是,尽管可以通过访问网站查看文章的全文,但必须单击多个“单击以展开”(或简称为“ +”)“链接”才能看到全部内容。这些“链接”没有指向新的URL,因此我假设它们正在控制某种脚本,该脚本确定文章每一部分的可见性。有什么方法可以指示urllib发送适当的脚本指令,这些指令将导致“链接”展开并在所有内容展开后下载页面?当我只是尝试检索页面时,我没有任何隐藏的文本。
这里是最近文章的链接: https://journals.aps.org/prper/abstract/10.1103/PhysRevPhysEducRes.15.010134
我的存根脚本(将上例中的DOI信息10.1103 / PhysRevPhysEducRes.15.010134作为第一个参数,并选择将输出文件的名称作为第二个):
#! /usr/bin/env python3
import urllib.request
import sys
import io.open
print('retreive url and convert to text')
url = "https://journals.aps.org/prper/abstract/" + sys.argv[1]
codec = "utf_8"
data = urllib.request.urlopen(url)
doc = data.read().decode(codec)
if len(sys.argv) == 3:
filename = sys.argv[2]
else
filename = "default.html"
a = io.open(filename, mode='wt', encoding='utf-8')
for i in range(len(information)):
information[i] = '%s\n' % information[i]
a.writelines(information)
a.close()