Question

我想解析关于公司段落和下表，而不使用任何类型的选择器或Java中的XPath。

我知道我可以使用XPath，但是我有来自不同域的很多不同的页面，XPath可能会改变。

关于公司字符串将保持不变，但位置可能会因页面而异。请提出一些解决方案，我已经尝试过Jsoup，HTMLUnit，DocumentBuilder和其他一些库，但看起来大多数都依赖于标签。

Answer 1

但是，您应该向我们展示您的代码试用版，因此我们可以帮助您完成现有代码。我可以向你展示一些代码，在BeautifulSoup中它是一个微不足道的东西，可以在关于你正在阅读的公司之类的特定部分之后寻找下一个Table元素。在其中写下一些代码，如果它不适合你，我们会帮助你。

Answer 2

XPath确实能够通过innertext选择元素。

Answer 3

我会使用HtmlUnit而不是去if not found:

id="AboutCompanySecDivEdit"

将返回：

page.getElementById("AboutCompanySecDivEdit");

这只适用于您的所有网站都设置此ID，就像您举例说明的那样。