我正在使用以下命令来提取the following webpage中嵌入的信息:(最终我想要做的是提取上述网页中显示的数据框中的信息)。
import urllib.request, json
with urllib.request.urlopen("https://www.mitomap.org/foswiki/bin/view/MITOMAP/MutationsRNA") as url:
data = url.read().decode()
但是,我们可以看到数据框中有很多超链接。以列Locus
为例。如果我在Locus
下打印观测值,它将显示如下:
"<a href='/MITOMAP/GenomeLoci#MTTF'>MT-TF</a>"
表示哪个是超链接。不过,我想在我的最终数据框中显示文本(在本示例中为MT-TF
)。
我是否可以传递给urllib.request.urlopen()
的任何论据来仅提取文本(而不提取超链接)或我可以采用的其他任何方式?