获取维基百科主要文章页面的所有HTML表格的最佳编程方法是什么?页面的标题与某些关键字相匹配?然后我想获取列名和表数据并将它们放入数据库中。
还会获取归档的网址和网页名称。
我不需要特定的推荐方法或链接到一些教程。
答案 0 :(得分:0)
这方面的简单方法就是不要刮掉维基百科的网站。形成维基百科的所有数据,元数据和相关媒体都以结构化格式提供;所以不需要刮掉他们的网页。
要将维基百科中的数据导入您的数据库(然后您可以搜索,切片和切块,直到您的心脏内容):
原始文章的网址应该可以很容易地从页面标题重新构建。