用于网站解析的高级Excel / Visual Basics

时间:2011-12-05 15:08:50

标签: parsing wikipedia wikimedia

我在excel文档中有500个Wikipedia / Wikimedia Wiki,Talk Pages和历史页面的链接,我想解析这些内容,以确定在Talk页面中有多少Wiki提及“广告”或“促销” ,Wiki的平均值是多长,编辑的频率等等。

我已经想出如何编写一个可以获得完整HTML的Visual Basics用户定义函数。是否有插件或其他方式来获取文本 - 因为它出现在屏幕上 - 两个标签或标识符之间,所以我可以提取我需要的信息?

与专业开发人员相比,我是一名业务专业人士,编码经验非常有限。但如果你能指出我正确的方向和一些好的教程,我可以学习。如果有人可以提供帮助,我也有兴趣向某人支付一些钱。

1 个答案:

答案 0 :(得分:0)

您可以使用XML Parser和Regex在HTML文档中搜索文本。

要获取浏览器中显示的文本,请编写一个删除所有标记的函数。虽然,它可能并不总是准确的,因为CSS和Javascript可以改变屏幕上可见的内容。