如何从XML文件中提取带有表情符号的文本?

时间:2015-03-12 11:40:20

标签: regex xml twitter extract emoticons

我有一个包含大量推文的XML文件,并希望提取包含表情符号的每条推文的文本。

XML文件如下所示:



<root>
  <tweet>
    <id>573890929636941824</id>
    <name>B&amp;BeyondMagazine</name>
    <text>Your Torrent Client May Be Mining Bitcoin Without Telling You http://t.co/xhTdmAYD20</text>
  </tweet>
  <tweet>
    <id>573890929628614656</id>
    <name>03/08</name>
    <text>@8900Princess that's what I thought you was on off the rip , that's why I said why &#128514;</text>
  </tweet>
</root>
&#13;
&#13;
&#13;

所以我需要每个文本标签值带有表情符号。

我通常会尝试使用正则表达式来识别带有表情符号的字符串,但我读到你不能将RegEx与XML文件一起使用。

我如何使用XML Parser(哪一个)或者我应该提取所有推文并使用RegEx?

之后我将不得不提取所有表情符号并计算所有不同的类型,对此的任何建议也将受到赞赏。

0 个答案:

没有答案