我想从链接中提取评论(WebCrawler)。 此代码来自this链接(Ctrl + u)。
<div class="spot-im-frame-inpage" data-post-id="353493"></div><script type="text/javascript">
!function(t,e,n){function a(t){var a=e.createElement("script");a.type="text/javascript",a.async=!0,a.src=("https:"===e.location.protocol?"https":"http")+":"+n,(t||e.body||e.head).appendChild(a)}function o(){var t=e.getElementsByTagName("script"),n=t[t.length-1];return n.parentNode} var p=o();t.spotId="sp_6phY2k0C",t.parentElement=p,a(p)}(window.SPOTIM={},document,"//www.spot.im/launcher/bundle.js");
我可以进入bundle.js
提取评论吗?
我读到了phantomJs
。我可以使用python中的phantomJs从任何javascript文件中删除注释吗?(如上面的代码。bundle.js
)。如是!怎么样?打开.js
文件的任何示例?
答案 0 :(得分:1)
由于所有注释都与类消息实体相关联。我会让爬虫为该类提取每个元素的html。使用python的phantomJS最简单的方法是通过Selenium或Ghostdriver。如果您不使用python,那么我建议使用node-horseman或casperjs之类的东西来浏览网站并获取评论。