标签: apache solr nutch pagerank
我们正在努力实现自己的PageRanking算法。为此,我们已将胡桃木用于爬行目的。通过使用nutct的webgraph,我们可以获得出站,入站和节点数据库,但是由于它是二进制文件,因此无法读取。对于我们的算法,我们需要那些入站和出站,因此我们需要读取那些数据库。怎么看?