我通过谷歌地图进行公寓购物,将各种列表复制到电子表格中,这样我就可以更轻松地比较和附加说明,当我意识到这是多么不必要的重复和低效。我可以轻松编写一个脚本来自动查询Google并提取我需要的数据,但是要获取一些数据(例如联系电话号码),我需要链接到特定于列表的站点并搜索数据,我从来没有写过一个动态的网络爬虫。什么是常见的数据挖掘和/或机器学习技术和工具,用于为任意HTML提取信息的“最佳猜测”?
答案 0 :(得分:2)
这不是后端技术,但在评论中有所帮助。转到http://www.google.com/squared,然后将结果导出为Google电子表格或csv数据。它为您命名字段并从Web填充数据。
答案 1 :(得分:0)