应用错误收集

通过搜索引擎进行Web挖掘

时间：2010-11-09 19:20:47

标签： machine-learning web-crawler data-mining

我通过谷歌地图进行公寓购物，将各种列表复制到电子表格中，这样我就可以更轻松地比较和附加说明，当我意识到这是多么不必要的重复和低效。我可以轻松编写一个脚本来自动查询Google并提取我需要的数据，但是要获取一些数据（例如联系电话号码），我需要链接到特定于列表的站点并搜索数据，我从来没有写过一个动态的网络爬虫。什么是常见的数据挖掘和/或机器学习技术和工具，用于为任意HTML提取信息的“最佳猜测”？

2 个答案:

答案 0 :(得分：2)

这不是后端技术，但在评论中有所帮助。转到http://www.google.com/squared，然后将结果导出为Google电子表格或csv数据。它为您命名字段并从Web填充数据。

答案 1 :(得分：0)

这称为信息提取。

这个视频还不错。这家伙来自谷歌：

http://videolectures.net/mlas06_nigam_tie/

查看RapidMiner及其信息提取插件。