Question

我需要解析一堆随机页面并将它们添加到数据库中。我正在考虑使用正则表达式，但我想知道是否有任何“特殊”技术（除了在已知文本/标签之间查找内容）。内容更多（并非总是）如：

Some Title
Text related to Title

我想我不需要提取完整的文本，但有一些方法可以知道标题/段落的位置并从那里提取内容。内容本身可能包含我想保留的图像/链接。

谢谢！

Answer 1

Answer 2

Answer 3

您需要使用正确的HTML解析器，并通过解析器的API（或通过DOM）提取您感兴趣的元素。

由于我不知道你编写的语言是什么，所以推荐一个解析器相当困难，但是一些众所周知的解析器是Jericho用于Java，而Beautiful Soup用于Python。