我有一个包含大量推文的XML文件,并希望提取包含表情符号的每条推文的文本。
XML文件如下所示:
<root>
<tweet>
<id>573890929636941824</id>
<name>B&BeyondMagazine</name>
<text>Your Torrent Client May Be Mining Bitcoin Without Telling You http://t.co/xhTdmAYD20</text>
</tweet>
<tweet>
<id>573890929628614656</id>
<name>03/08</name>
<text>@8900Princess that's what I thought you was on off the rip , that's why I said why 😂</text>
</tweet>
</root>
&#13;
所以我需要每个文本标签值带有表情符号。
我通常会尝试使用正则表达式来识别带有表情符号的字符串,但我读到你不能将RegEx与XML文件一起使用。
我如何使用XML Parser(哪一个)或者我应该提取所有推文并使用RegEx?
之后我将不得不提取所有表情符号并计算所有不同的类型,对此的任何建议也将受到赞赏。