我有兴趣从网站上删除内容并将其放入数组中。具体来说,我有兴趣通过识别纯文本所在的html元素将明文转换为数组。我正在使用硒与Java,我希望有人可以阐明最好的方法来做到这一点。我将扫描多个纯文本元素并按顺序将它们放入数组中。纯文本将在html表中,我需要采取表格的特定部分,其中包含我感兴趣的纯文本。
提前致谢。
答案 0 :(得分:1)
这是一个相当广泛的问题,但我仍然希望能提供帮助。我已将selenium
与scrapy
库(python
)一起用于抓取,但效果非常好。如果您的问题是查找HTML
中文字的最佳方式,那么说答案是XPath
则非常安全。它是一种非常简单的语言,旨在从html/xml
中提取多个元素。只是谷歌的例子,我相信你会掌握它。 Selenium为xpath编写了一些内置函数,你会发现很多例子