标签: php ruby text data-mining text-mining
是否有一个用于ruby或php的库,它能够解析html页面并通过与其他类似页面进行比较来提取唯一数据....应该使用某种文本挖掘来识别哪些文本更可能是噪音和重复,而其他文本更独特和有用......
答案 0 :(得分:2)
我是一个PHP家伙,不知道Ruby,但我认为你想要的东西是微不足道的存档: