我正在学习一种使用python的'web scraping'练习。到目前为止我的想法是发出一个请求从服务器加载站点数据,将DOM html存储在一个变量中,然后基本上数据挖掘结果字符串中的s ***直到你是能够快速准确地访问您所需的信息。
我已经准备好开始摆弄可能有助于我进行实际数据挖掘的语句,但首先我需要查看并理解我的字符串中的所有html。在我掌握了它之后,我不会关心html的样子,但是现在我需要能够引用它来正确分析我的输出。到目前为止,我已经尝试过google,python.net,youtube,各种博客等等。但它们看起来都像alianeese。
我只是在寻找你知道的典型东西?
<html><head><meta><script src=""><style src=""><title></title></head><body><div class=""><img src=""></div><div><h1>my page</h1><li></li><li></li><li></li><li></li><li></li><li></li><p>click <a href="">here</a></p></div></body></html>
你得到我说的话?只是一个网站...使用像... html ...来呈现一些简单的结构化数据。
P.S。这有点整洁。我给这篇文章贴了一些标签,我发现了'simple-html-dom'。所以我用谷歌搜索了它。显然,它是某种语言,可以让你完全按照我想要的方式解析来自在线资源的HTML。我可以稍后检查一下,但我仍然想知道如何用python做这个。
编辑实际上像this这样的东西可以正常工作,但它确实很大。我希望更小的东西可以使用。
答案 0 :(得分:3)
虽然构建自己的网页可能会很好用,但您也可以尝试查找“为lynx优化”的页面。 Lynx是一个纯文本浏览器,“简单”页面自然效果最佳。
你会发现大多数链接已经死了,但我发现这个列表,例如,它仍然有许多活着且同样简单的页面:http://www.put.com/dead.html(请忽略内容本身......有没有特别的原因我选择这个例子,除了它可能很适合你的目的!)