XPATH:如何将图释解析为纯文本?

时间:2019-06-26 10:10:36

标签: xpath web-scraping emoticons

我正在为大学项目做一些Web爬网。我在Ubuntu上使用Chromium,并且正在使用“ Scraper”插件。 Scraper使用XPATH。 Scraper

我正在尝试将Webforum-Conversation转换为纯文本,几乎所有内容都能按我的意愿进行, 不幸的是,帖子中有很多图释。表情符号嵌入有常规html,例如:

<img src="smiley.jpg" alt=":)">

该帖子可以通过以下方式进行抓取:

article/div/section/div/div/div/div

输出:您好,这是一个示例文本。您可以看到根本没有表情符号。

表情符号可以通过以下方式刮取:

article/div/section/div/div/div/div/img/@alt 

输出:例如“ :)”

所需的输出: 您好,这是示例文本:)如您所见,纯文本中包含xD表情符号。 ;)

有什么办法可以做到这一点?感谢您提供的任何帮助或提示。谢谢!

/编辑: 我是一个完整的初学者,但是据我认为,取决于我使用的是哪种工具?即使您不知道该插件,也请多多指教! :)

/ edit2(因为已请求):

该帖子中没有什么特别的东西,看起来就像这样,我只是用lorem ipsum替换了文本:

<div class="messageText">

Sed ut perspiciatis unde omnis iste natus error sit voluptatem 
accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab 
illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. 
Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut 
fugit, sed quia consequuntur magni dolores eos qui 
ratione voluptatem sequi 
nesciunt.<img src="https://forum.example.com/wcf/images/smilies/wink.png" alt=";)">
<br>
Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet, 
consectetur, adipisci velit, sed quia non numquam eius modi 
tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem.

<br>
Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet,
consectetur, adipisci velit, sed quia non numquam eius modi tempora 
incidunt ut labore et dolore magnam aliquam quaerat voluptatem. 
Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis 
suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur?
</div>

0 个答案:

没有答案