提取和解析维基百科文章

时间:2013-11-02 22:17:53

标签: html xml-parsing

我有xml格式的维基百科文章,我只需要提取项目文章中的单词。我没有XML解析经验。是否有提取所有单词的工具或库?

2 个答案:

答案 0 :(得分:1)

如果您喜欢Python,Beautiful Soup是一个不错的选择。

如果您不喜欢Python,请了解Python。

答案 1 :(得分:1)

Nokogiri是一个功能强大的Ruby库,可以满足您的需求。

它允许您遍历XML和HTML文档,并使用xpath或CSS3选择器来选择某些元素,如文章文本。