应用错误收集

使用XPath提取信息

时间：2016-08-17 15:42:38

标签： java python xml xpath import.io

亲爱的社区，下午好，

我最终编译了一个工作XPath列表，需要从我需要的URL中获取所有信息。

我想问你的建议，对于一个新手来编码什么是仅使用XPath（每个链接大约100 x路径）刮掉50k链接的最佳方法？

Import.io是我目前最好的工具，甚至是Excel的SEO工具，但它们都有自己的局限性。导入io很昂贵，excel的SEO工具不适合提取超过1000个链接。

我愿意学习建议的系统，但请为我的项目提出一个很好的方法！

＃

解决了！搜索引擎优化工具爬虫实际上是超级有用的，我相信我已经找到了我需要的东西。我想我会阻止Python或Java，直到遇到另一个棘手的障碍。谢谢大家！

2 个答案:

答案 0 :(得分：1)

这很大程度上取决于“抓信息”的含义。你想从网站上找到什么？所有主要语言（当然，您提到的Java和Python）都有很好的解决方案，可以连接到网站，阅读内容，使用DOM解析HTML并使用XPath提取某些片段。例如，Java有JTidy，它允许您将甚至从网站“脏”的HTML解析为DOM并稍微操纵它。但是，所需的工具将取决于项目的确切数据处理需求。

答案 1 :(得分：1)

我鼓励你使用Python（我使用2.7.x）w / Selenium。我经常使用这个组合自动化对网站进行抓取和测试（无论是头脑还是无头），Selenium解锁了与每个页面没有明确网络连接的脚本网站进行交互的机会。

以下是Selenium文档中的一个很好的快速教程：2. Getting Started

那里有很多很棒的资源，并且需要永远发布它们;但是，你会发现Python社区非常有用，你可能会发现Python是这种类型的网络交互的一种很好的语言。

祝你好运！