当我进入此页面时(与本网站上的大量文章相同):http://thereasonmag.com/9231-2/
我收到错误HTTP 500(请参阅Chrome开发工具) AND 文章。
嗯,我对此有点失落。你知道为什么它的设计是这样的吗?
这对我的抓取工具来说是一个问题,旨在避免处理HTTP 5xx错误响应。
答案 0 :(得分:1)
我会说这很难被称为“设计”,并且当有人在后端代码/逻辑中出错时可能。实际上这是我第一次看到这样的东西,但在这种情况下我只能考虑解决方法。
因为这个响应有500个错误和正确的HTTP正文与html,你可以避免在你的代码处理5xx错误没有正确的html身体..如何确定这个HTML是否正确?这是非常冒险的猜测..您可以研究他们的html并在html中找到一些全局变量或一些注释标签/类,如果返回真正的错误页面将不会返回。
重要提示:我理解(并且您也确定)我的建议绝对是疯狂的解决方法,只是为了让您的代码正常工作。我会在你的位置做什么,我会写那些人并要求他们修复他们的后端。似乎this是唯一一个底部有电子邮件的地方..
尝试编写它们,否则你肯定会面临一个案例,你将无法满足if (res.errorCode === 500 && res.body.anyPossiblePredicateYouMayThinkToCheckRightHTMLBody) {// show the post on your page }
答案 1 :(得分:1)
1)看起来这是PHP版本5.2.4以来的预期行为。
2)上面的网址是使用X-Powered-By:PHP / 5.4.45(wordpress app)
3)根本原因可能是,上面网站中的wordpress插件之一 错误的字符串,ph eval()无法解析它。
4)更多信息请查看链接a)wordpress discussion
最后,我不这么认为你可以在这里做任何事情。