全部提取" ul a"来自html页面的实体在"标题"中有一定的字符串

时间:2015-04-23 02:08:28

标签: html regex parsing jsoup wikipedia

this page上的示例风格中,我尝试根据维基百科消歧页面获取可以将特定名称应用于特定人的所有感官。

问题是维基百科页面非常不均匀。

一个常见的功能是名称列表将作为链接ul的一部分显示在a元素中,并且链接的title=组件中会有参考我们正在寻找的名字。由于这些是指向相关维基百科页面的链接。

使用jsoup或其他方法,我怎样才能识别这些组件?

h2:contains(people) + ul a

^适用于他们在名为People的部分中的所有内容,但正如我所提到的,情况并非总是如此。

也许在伪代码中我们可以这样做:

ul a && title contains *String*

也许是这样的:

a[href], [title]

但只匹配标题的一部分,而不是整个事情。

This是一个非结构化页面的示例,其中将调用此类方法。

This是一个不重要的例子。

但是我试图做出一些可以推广的东西,同样适用于这两种类型。

1 个答案:

答案 0 :(得分:0)

这种作品:

        Elements linx = docx.select("a:contains(Corzine)");

        for (Element linq : linx) 
        {
            System.out.println(linq.text());
        }

但也许你们中的一个可能会遇到更好的解决方案。