解析随机网页

时间:2010-09-21 10:05:37

标签: html parsing html-parsing text-processing

我需要解析一堆随机页面并将它们添加到数据库中。我正在考虑使用正则表达式,但我想知道是否有任何“特殊”技术(除了在已知文本/标签之间查找内容)。内容更多(并非总是)如:

Some Title
Text related to Title

我想我不需要提取完整的文本,但有一些方法可以知道标题/段落的位置并从那里提取内容。内容本身可能包含我想保留的图像/链接。

谢谢!

3 个答案:

答案 0 :(得分:1)

答案 1 :(得分:0)

答案 2 :(得分:0)

您需要使用正确的HTML解析器,并通过解析器的API(或通过DOM)提取您感兴趣的元素。

由于我不知道你编写的语言是什么,所以推荐一个解析器相当困难,但是一些众所周知的解析器是Jericho用于Java,而Beautiful Soup用于Python。