如何从网站解析java特定文本?例如,如果网站在其网页中显示此内容:<meta property='ABC' content="DEF" />
。我想搜索'ABC'并找到'DEF'。我该如何制作这样的功能?我没有使用HTML的经验,也没有解析信息。
由于
答案 0 :(得分:0)
我喜欢JSOUP因为它增加了许多不错的功能......
JSoup负责处理大量文档,如果您想提取信息,可以使用CSS选择器访问页面中的元素。
至于对meta标签的支持,我无法编写任何测试代码,但是在堆栈溢出上this example会谈到它。
答案 1 :(得分:0)
我没有做很多Java,但这听起来像是使用正则表达式的好地方。
对于像这样的简单文本搜索,它非常简单。要搜索“ABC”,只需使用正则表达式ABC
即可。您可以使用ABC|DEF
之类的内容搜索“ABC”或“DEF”的实例。我不确定你想要什么,但如果你澄清我可以提供更多帮助。
Java有一些类来评估这些表达式,就像大多数编程语言一样。
import java.util.regex.Pattern;
import java.util.regex.Matcher;
有关如何使用这些内容的信息,请参阅this link它提供了您需要的所有信息,包括了解正则表达式的信息。
要详细了解正则表达式语法go here。
还有其他方法可以搜索字符串以查找模式,但正则表达式在所有语言中都是统一的,并且随着您查找的模式变得越来越复杂,它们变得越来越有用。