Question

我正在学习一种使用python的'web scraping'练习。到目前为止我的想法是发出一个请求从服务器加载站点数据，将DOM html存储在一个变量中，然后基本上数据挖掘结果字符串中的s ***直到你是能够快速准确地访问您所需的信息。

我已经准备好开始摆弄可能有助于我进行实际数据挖掘的语句，但首先我需要查看并理解我的字符串中的所有html。在我掌握了它之后，我不会关心html的样子，但是现在我需要能够引用它来正确分析我的输出。到目前为止，我已经尝试过google，python.net，youtube，各种博客等等。但它们看起来都像alianeese。

我只是在寻找你知道的典型东西？

<html><head><meta><script src=""><style src=""><title></title></head><body><div class=""><img src=""></div><div><h1>my page</h1><li></li><li></li><li></li><li></li><li></li><li></li><p>click <a href="">here</a></p></div></body></html>

你得到我说的话？只是一个网站...使用像... html ...来呈现一些简单的结构化数据。

P.S。这有点整洁。我给这篇文章贴了一些标签，我发现了'simple-html-dom'。所以我用谷歌搜索了它。显然，它是某种语言，可以让你完全按照我想要的方式解析来自在线资源的HTML。我可以稍后检查一下，但我仍然想知道如何用python做这个。

编辑实际上像this这样的东西可以正常工作，但它确实很大。我希望更小的东西可以使用。

Answer 1

虽然构建自己的网页可能会很好用，但您也可以尝试查找“为lynx优化”的页面。 Lynx是一个纯文本浏览器，“简单”页面自然效果最佳。

你会发现大多数链接已经死了，但我发现这个列表，例如，它仍然有许多活着且同样简单的页面：http://www.put.com/dead.html（请忽略内容本身......有没有特别的原因我选择这个例子，除了它可能很适合你的目的！）

有谁知道你好世界网站？

1 个答案: