我正在尝试找到一种方法来获取维基百科页面的所有传入链接的锚文本(来自维基百科内的其他页面)。我已经阅读了一些已经对这些信息进行过实验的论文(例如http://web2py.iiit.ac.in/research_centres/publications/download/inproceedings.pdf.809e1550d80bca59.4d756c7469446f635f53756d6d6172697a6174696f6e5f46696e616c2e706466.pdf) 但他们似乎并没有解释他们如何获得这些信息。我知道有一个名为YAGO的资源,它提供了链接到相关页面的维基百科页面,但它似乎没有提供锚文本。任何人都可以提出获取此信息的方法吗?
答案 0 :(得分:0)
您需要解析维基百科页面的html文本。
这样的锚文本就像piped link format中的[link | anchor text],你需要自己实现parser来找到它。
您可以在stackoverflow帖子here
中找到更多详细信息答案 1 :(得分:0)
你能做的是:
latest
,然后选择enwiki-latest-pages-articles.xml.bz2 l, --links
保留链接现在你有干净的维基百科纯文本,其中包含锚文本。使用任何编程语言,您都可以解析这些文件并提取锚文本。