Python 3.4 - 从pastebin.com下载新上传的文本文件

时间:2015-12-30 12:23:23

标签: python web web-scraping

我想从pastebin.com下载文本文件。 一旦我启动程序,它应该查找正在上传的文本文件,然后下载"一旦他们上传了他们。 我知道如何"下载"他们但不是如何告诉Python单击http://pastebin.com/archive上的一个公共文件,然后单击" raw" - 按钮打开一个包含" raw&#的新选项卡34;内容。

我搜索了很多内容,但实际上没有任何内容可以帮助我。

由于

2 个答案:

答案 0 :(得分:2)

嗯,一个程序不知道如何点击"什么:)要从页面检索信息,您只需要在正确的URL上发送GET请求。在您的情况下,这将是http://pastebin.com/raw/4ffLHviP或您要下载的pastebin的任何其他代码。您可以手动检索代码,例如通过在archive page上应用文本解析器(正则表达式,beautifulsoup ...)。

请注意,有一个用于抓取Pastebin的API(请参阅http://pastebin.com/scraping)。如果您想从中提取后续内容,强烈建议您使用它。它更有礼貌,可以提供更好的服务,并避免将您列入黑名单。

答案 1 :(得分:1)

要选择文件,您只需执行以下操作:

  1. 访问该文件的链接,例如。 http://pastebin.com/B8A6L7Zt
  2. 该网页上的原始内容已经,即<textarea id='paste_code'>...</textarea>内。所以你只需要使用正则表达式来删除这些内容。 enter image description here