我需要解析一堆随机页面并将它们添加到数据库中。我正在考虑使用正则表达式,但我想知道是否有任何“特殊”技术(除了在已知文本/标签之间查找内容)。内容更多(并非总是)如:
Some Title
Text related to Title
我想我不需要提取完整的文本,但有一些方法可以知道标题/段落的位置并从那里提取内容。内容本身可能包含我想保留的图像/链接。
谢谢!
答案 0 :(得分:1)
答案 1 :(得分:0)
使用Python。 http://www.python.org/
答案 2 :(得分:0)
您需要使用正确的HTML解析器,并通过解析器的API(或通过DOM)提取您感兴趣的元素。
由于我不知道你编写的语言是什么,所以推荐一个解析器相当困难,但是一些众所周知的解析器是Jericho用于Java,而Beautiful Soup用于Python。