我正在创建Feed聚合器。我将抓取博客,有时每小时或每两个小时检查一次,看看他们是否有新帖子。我正在使用Simplepie。
我想知道是否应该更改Simplepie具有的自定义用户代理(SIMPLEPIE_USERAGENT
)。此外,如果我应该更改它,用户代理的最佳做法是什么。谢谢!
答案 0 :(得分:2)
是的,你应该,否则他们可能会开始向SimplePie维护者(即我:)抱怨它。使用自定义的useragent可以让他们知道如果出现问题可以联系谁。
理想的格式是“Your Program Name / 1.0”,其中1.0是版本。您还可以包含URL(如果您这样做,请在其前面加上+)和联系地址,使其成为“您的程序名称/ 1.0(+ http://example.com/)”
答案 1 :(得分:1)
你应该改变吗?那么,这取决于你在做什么。有些网站会根据UA阻止您。那是他们的权利。
如果您正在尝试抓取数据并且不关心遵守规则,那么您可以将其更改为您想要的任何内容。
最佳做法是识别自己并遵守robots.txt
答案 2 :(得分:0)
我总是将我的应用程序的名称作为用户代理,如果我的脚本导致服务器出现问题,服务器管理员可以联系我。 (这是任何人都会关心的唯一原因)