我有一个Excel表格,其中包含约800个指向不同网页的链接。 每页都有我需要提取的文本。 我使用Google表格中的importxml进行了相同的操作,但有800个条目未加载。
请提供Excel或python中可用的其他选项。
例如,在链接中 http://access.cesc.co.in/misdtr/fd/dtr_llgis.php?txtdistnm=02&txtdtrnm=0200112 在Excel工作表的“ A1”单元格中
我想提取文本
"A K PAUL RD.( C ) P/T"
在Excel中的B1
中的相似类型的链接
A2,A3等。
在Excel中,我使用=webservice(A1)
,之后使用=filterxml(A1,"/b")
,但出错。
答案 0 :(得分:2)
如果所有链接都在Excel工作表中,则可以使用xlrd或openpyxl提取它们以获取Python列表,即["http://link1", "http://link2"]
然后,您可以使用urllib.request获取网页以获取相应的HTML文本,即""" <b>A K PAUL RD.( C ) P/T</b> """
最后,您可以使用BeautifulSoup解析获取的HTML文本,以便获得所需的值,即A K PAUL RD.( C ) P/T
。
这是工作流程,如果您有更详细的问题,请随时向您解释不清楚的部分,或提出其他问题。