从Excel中的网页列表中提取文本

时间:2019-05-07 11:58:11

标签: excel vba

我有一个Excel表格,其中包含约800个指向不同网页的链接。 每页都有我需要提取的文本。 我使用Google表格中的importxml进行了相同的操作,但有800个条目未加载。

请提供Excel或python中可用的其他选项。

例如,在链接中 http://access.cesc.co.in/misdtr/fd/dtr_llgis.php?txtdistnm=02&txtdtrnm=0200112 在Excel工作表的“ A1”单元格中

我想提取文本

"A K PAUL RD.( C ) P/T"

在Excel中的B1

中的相似类型的链接

A2,A3等。

在Excel中,我使用=webservice(A1),之后使用=filterxml(A1,"/b"),但出错。

1 个答案:

答案 0 :(得分:2)

如果所有链接都在Excel工作表中,则可以使用xlrdopenpyxl提取它们以获取Python列表,即["http://link1", "http://link2"]

然后,您可以使用urllib.request获取网页以获取相应的HTML文本,即""" <b>A K PAUL RD.( C ) P/T</b> """

最后,您可以使用BeautifulSoup解析获取的HTML文本,以便获得所需的值,即A K PAUL RD.( C ) P/T

这是工作流程,如果您有更详细的问题,请随时向您解释不清楚的部分,或提出其他问题。