通过搜索引擎进行Web挖掘

时间:2010-11-09 19:20:47

标签: machine-learning web-crawler data-mining

我通过谷歌地图进行公寓购物,将各种列表复制到电子表格中,这样我就可以更轻松地比较和附加说明,当我意识到这是多么不必要的重复和低效。我可以轻松编写一个脚本来自动查询Google并提取我需要的数据,但是要获取一些数据(例如联系电话号码),我需要链接到特定于列表的站点并搜索数据,我从来没有写过一个动态的网络爬虫。什么是常见的数据挖掘和/或机器学习技术和工具,用于为任意HTML提取信息的“最佳猜测”?

2 个答案:

答案 0 :(得分:2)

这不是后端技术,但在评论中有所帮助。转到http://www.google.com/squared,然后将结果导出为Google电子表格或csv数据。它为您命名字段并从Web填充数据。

答案 1 :(得分:0)

这称为信息提取。

这个视频还不错。这家伙来自谷歌:

http://videolectures.net/mlas06_nigam_tie/

查看RapidMiner及其信息提取插件。