我最终编译了一个工作XPath列表,需要从我需要的URL中获取所有信息。
我想问你的建议,对于一个新手来编码什么是仅使用XPath(每个链接大约100 x路径)刮掉50k链接的最佳方法?
Import.io是我目前最好的工具,甚至是Excel的SEO工具,但它们都有自己的局限性。导入io很昂贵,excel的SEO工具不适合提取超过1000个链接。
我愿意学习建议的系统,但请为我的项目提出一个很好的方法!
#解决了!搜索引擎优化工具爬虫实际上是超级有用的,我相信我已经找到了我需要的东西。我想我会阻止Python或Java,直到遇到另一个棘手的障碍。 谢谢大家!
答案 0 :(得分:1)
这很大程度上取决于“抓信息”的含义。你想从网站上找到什么?所有主要语言(当然,您提到的Java和Python)都有很好的解决方案,可以连接到网站,阅读内容,使用DOM解析HTML并使用XPath提取某些片段。例如,Java有JTidy,它允许您将甚至从网站“脏”的HTML解析为DOM并稍微操纵它。但是,所需的工具将取决于项目的确切数据处理需求。
答案 1 :(得分:1)
我鼓励你使用Python(我使用2.7.x)w / Selenium。我经常使用这个组合自动化对网站进行抓取和测试(无论是头脑还是无头),Selenium解锁了与每个页面没有明确网络连接的脚本网站进行交互的机会。
以下是Selenium文档中的一个很好的快速教程:2. Getting Started
那里有很多很棒的资源,并且需要永远发布它们;但是,你会发现Python社区非常有用,你可能会发现Python是这种类型的网络交互的一种很好的语言。
祝你好运!