从任意html页面中提取有用的数据?

时间:2010-01-31 09:08:53

标签: php ruby text data-mining text-mining

是否有一个用于ruby或php的库,它能够解析html页面并通过与其他类似页面进行比较来提取唯一数据....应该使用某种文本挖掘来识别哪些文本更可能是噪音和重复,而其他文本更独特和有用......

1 个答案:

答案 0 :(得分:2)

我是一个PHP家伙,不知道Ruby,但我认为你想要的东西是微不足道的存档:

  • 使用Simple HTML DOM之类的内容来解析页面。
  • 为每个页面比较所有DOM元素。
  • 获取具有不同内容的所有元素的路径,这些元素将是您的信号元素。