这个问题与实际代码关系不大,而与底层方法有关。
我的'老板'在我的伪实习中已要求我给他写一个脚本,该脚本将从用户的推文中抓取一个链接列表(该列表每周轮流一次,并且它始终是同一个用户)然后发布说公司的Tumblr账户名单。
目前,我正在考虑这个结构:基础将是一个bash脚本,首先调用一些使用Twitter API的脚本来查找给定标签的帖子并解析列表(语言的当前候选者是Perl,PHP和Ruby,没有特别的顺序)。然后,脚本会将已解析的列表(带有一些标记)存储到一个文本文件中,使用Tumblr API的另一个脚本将对该列表进行格式化然后发布。
这是一种明智的做法吗?到目前为止,在规划中我只能获得Twitter帖子,但我已经陷入使用API获取帖子或只是抓住他们提供的源并尝试解析它之间。我知道这不是一个很大的项目,但它肯定是我开始做的最大的项目,所以在制定决策时我感到惶恐不安!
答案 0 :(得分:1)
您的方法似乎合适。
您可能还想从Twitter跟踪上次提取的推文ID,以便您可以继续从该推文ID中提取。
答案 1 :(得分:1)
根据您的描述,您没有理由不能在一个脚本中完成所有操作,这样可以简化操作,除非有充分的理由在两个脚本之间传输数据。在您手动打开连接之前,为Tumblr和Twitter编写了多种语言的库,可以使您的工作更轻松。你绝对不应该尝试解析RSS提要 - 他们提供API是有原因的。*
我个人会使用Python,因为它可以快速启动并运行,并且具有很好的库。但是如果你不熟悉它,那么也有可用于Ruby或Perl的库(PHP不那么)。只需谷歌“{platform} library {language}” - 快速搜索就会给我python-tumblr,WWW:Tumblr和ruby-tumblr,以及python-twitter,Net::Twitter ,以及Ruby gem“twitter”。
这些库中的任何一个都应该可以轻松连接到Twitter以通过API下载特定用户或主题标签的推文。然后,您可以逐步执行它们,根据需要对其进行解析,然后使用Tumblr库以任何您想要的格式将它们发布到Tumblr。
你可以手动执行 - 打开和读取连接,或者更糟糕的是,屏幕抓取,但是如果你有一个好的库可以做到这一点真的没有意义 - 你这样做 - 它是更容易出现被忽视的问题,怪癖和错误。正如我所说,除非有充分的理由使用中间bash脚本,否则将数据保存在一个脚本,一个数组或一些其他数据结构中要容易得多。如果你在文件中也需要它,你可以在完成后从同一个脚本写出来。
*此处唯一可能的复杂因素是如果您需要进行身份验证 Twitter - 我不认为你这样做, 如果您只是获得用户时间表 - 他们将很快停止基本身份验证,所以你会 必须设置OAuth帐户(请参阅 "What is OAuth"结束了 dev.twitter.com)。这不是真的 问题,但让事情变得更多 复杂。 API应该仍然是 比解析RSS提要更容易。