应用错误收集

时间：2011-12-05 15:08:50

标签： parsing wikipedia wikimedia

我在excel文档中有500个Wikipedia / Wikimedia Wiki，Talk Pages和历史页面的链接，我想解析这些内容，以确定在Talk页面中有多少Wiki提及“广告”或“促销” ，Wiki的平均值是多长，编辑的频率等等。

我已经想出如何编写一个可以获得完整HTML的Visual Basics用户定义函数。是否有插件或其他方式来获取文本 - 因为它出现在屏幕上 - 两个标签或标识符之间，所以我可以提取我需要的信息？

与专业开发人员相比，我是一名业务专业人士，编码经验非常有限。但如果你能指出我正确的方向和一些好的教程，我可以学习。如果有人可以提供帮助，我也有兴趣向某人支付一些钱。

答案 0 :(得分：0)

您可以使用XML Parser和Regex在HTML文档中搜索文本。

要获取浏览器中显示的文本，请编写一个删除所有标记的函数。虽然，它可能并不总是准确的，因为CSS和Javascript可以改变屏幕上可见的内容。