我正在为大学项目做一些Web爬网。我在Ubuntu上使用Chromium,并且正在使用“ Scraper”插件。 Scraper使用XPATH。 Scraper
我正在尝试将Webforum-Conversation转换为纯文本,几乎所有内容都能按我的意愿进行, 不幸的是,帖子中有很多图释。表情符号嵌入有常规html,例如:
<img src="smiley.jpg" alt=":)">
该帖子可以通过以下方式进行抓取:
article/div/section/div/div/div/div
输出:您好,这是一个示例文本。您可以看到根本没有表情符号。
表情符号可以通过以下方式刮取:
article/div/section/div/div/div/div/img/@alt
输出:例如“ :)”
所需的输出: 您好,这是示例文本:)如您所见,纯文本中包含xD表情符号。 ;)
有什么办法可以做到这一点?感谢您提供的任何帮助或提示。谢谢!
/编辑: 我是一个完整的初学者,但是据我认为,取决于我使用的是哪种工具?即使您不知道该插件,也请多多指教! :)
/ edit2(因为已请求):
该帖子中没有什么特别的东西,看起来就像这样,我只是用lorem ipsum替换了文本:
<div class="messageText">
Sed ut perspiciatis unde omnis iste natus error sit voluptatem
accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab
illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo.
Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut
fugit, sed quia consequuntur magni dolores eos qui
ratione voluptatem sequi
nesciunt.<img src="https://forum.example.com/wcf/images/smilies/wink.png" alt=";)">
<br>
Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet,
consectetur, adipisci velit, sed quia non numquam eius modi
tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem.
<br>
Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet,
consectetur, adipisci velit, sed quia non numquam eius modi tempora
incidunt ut labore et dolore magnam aliquam quaerat voluptatem.
Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis
suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur?
</div>