使用PhantomJS从python3中的任何网站(.js文件中的注释)中提取评论

时间:2016-07-27 15:50:49

标签: javascript python phantomjs

我想从链接中提取评论(WebCrawler)。 此代码来自this链接(Ctrl + u)。

 <div class="spot-im-frame-inpage" data-post-id="353493"></div><script type="text/javascript">
!function(t,e,n){function a(t){var a=e.createElement("script");a.type="text/javascript",a.async=!0,a.src=("https:"===e.location.protocol?"https":"http")+":"+n,(t||e.body||e.head).appendChild(a)}function o(){var t=e.getElementsByTagName("script"),n=t[t.length-1];return n.parentNode} var p=o();t.spotId="sp_6phY2k0C",t.parentElement=p,a(p)}(window.SPOTIM={},document,"//www.spot.im/launcher/bundle.js");

我可以进入bundle.js提取评论吗?

我读到了phantomJs。我可以使用python中的phantomJs从任何javascript文件中删除注释吗?(如上面的代码。bundle.js)。如是!怎么样?打开.js文件的任何示例?

1 个答案:

答案 0 :(得分:1)

由于所有注释都与类消息实体相关联。我会让爬虫为该类提取每个元素的html。使用python的phantomJS最简单的方法是通过Selenium或Ghostdriver。如果您不使用python,那么我建议使用node-horseman或casperjs之类的东西来浏览网站并获取评论。