Ciao家伙,
我正在创建一个由推文组成的语料库,这些推文包含XML格式的关键词“灾难性”。每条推文都嵌入如下:
<tweet>"Catastrophic loss" at Tennessee's Zoo Knoxville as 33 reptiles are found dead </tweet>
<tweet>Overcoming Catastrophic Forgetting by Incremental Moment Matching, Lee et al.</tweet
在修剪了大量不必要的数据之后,仍有200多条推文完全不包含该关键字。我想删除它们,所以我尝试了这样的正则表达式,但它只是不起作用:
<tweet>^.*(?!catastrophic).*$</tweet>
有人有任何想法吗?
答案 0 :(得分:0)
不确定您使用的编程语言或其他工具集。
但是一个非常简单的方法可能是使用仅写入包含灾难性的条目的过滤器重写文件(或任何类型的输入):
假设它是一个每个推文有一行的文件(只是为了说明这个想法):
egrep '<tweet>.*catastrophic.*</tweet>' originalFile > newFile