从html文档中解析数据(<meta property =“ABC”content =“DEF”/>)

时间:2013-08-26 19:50:48

标签: java html parsing meta

如何从网站解析java特定文本?例如,如果网站在其网页中显示此内容:<meta property='ABC' content="DEF" />。我想搜索'ABC'并找到'DEF'。我该如何制作这样的功能?我没有使用HTML的经验,也没有解析信息。

由于

2 个答案:

答案 0 :(得分:0)

我喜欢JSOUP因为它增加了许多不错的功能......

JSoup负责处理大量文档,如果您想提取信息,可以使用CSS选择器访问页面中的元素。

至于对meta标签的支持,我无法编写任何测试代码,但是在堆栈溢出上this example会谈到它。

答案 1 :(得分:0)

我没有做很多Java,但这听起来像是使用正则表达式的好地方。 对于像这样的简单文本搜索,它非常简单。要搜索“ABC”,只需使用正则表达式ABC即可。您可以使用ABC|DEF之类的内容搜索“ABC”或“DEF”的实例。我不确定你想要什么,但如果你澄清我可以提供更多帮助。

Java有一些类来评估这些表达式,就像大多数编程语言一样。

import java.util.regex.Pattern;

import java.util.regex.Matcher;

有关如何使用这些内容的信息,请参阅this link它提供了您需要的所有信息,包括了解正则表达式的信息。

要详细了解正则表达式语法go here

还有其他方法可以搜索字符串以查找模式,但正则表达式在所有语言中都是统一的,并且随着您查找的模式变得越来越复杂,它们变得越来越有用。