有没有办法让python"阅读"文档,排除不必要的元素,并建立一个1和0的邻接矩阵?我有一个包含500个访问页面的电子表格,其中包含链接,链接和悬空页面(需要从搜索中排除)。
我想到了一个粗略的伪代码,看起来像这样:
Sell Price
是否有可能以某种方式在Python中实现这个想法?或者使用Matlab或R会更有用吗?
指向抓取工具结果的链接: http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.txt http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.xlsx
答案 0 :(得分:1)
有没有办法让python“读取”文档,排除不必要的元素并构建1和0的邻接矩阵?
是
请参阅https://docs.python.org/2/tutorial/inputoutput.html
开始阅读和阅读文档的最简单方法:
f = open('workfile', 'r')
fileLines = f.readlines()
#do something with your lines
#properly adapt your pseudocode to
#the extracted data
f.close()
其他问题超出了范围。