我正在研究将Wikipedia集成到node.js应用程序中的最简单方法。 要求是能够搜索条目并在每个条目中查找实体。
任何已知的现有库/方法?
由于
答案 0 :(得分:2)
对于wiki文本(http://sweble.org/),有一个新推出的开源解析器,如果您推出自己的解决方案,它可能对您有用。当然,这需要您下载维基百科数据转储,解析并在db中存储实体。
您还可以查看dbpedia(http://dbpedia.org/About),但这需要将rdf堆栈集成到您的应用程序中(运行本地rdf存储库或通过sparql与通常不稳定的在线版本进行通信)
一种简单的方法是使用搜索引擎api并限制到site:wikipedia.org - 例如:
http://www.google.com/search?q=node.js+site%3Awikipedia.org
我发现它可以很好地工作。
答案 1 :(得分:0)
使用jquery进行抓取的蜘蛛很棒:
https://github.com/mikeal/spider
Mikeal是男人
据推测,你可能会将它用于一个(个人)项目。不知道用刮刀在维基百科上疯狂地运行是多么的犹豫不决。