通过java进行文本操作

时间:2011-12-28 12:52:23

标签: java file

我应该通过Java读取文本文件并删除文本文件中的所有电子邮件ID和URL。这是为了减少数据中的噪音。

java中是否有任何库函数可以执行相同的操作?

3 个答案:

答案 0 :(得分:2)

您可以使用FileInputStream和/或BufferedReader读取文件。您可以解析每一行并使用正则表达式查看是否存在电子邮件或URL模式的匹配项,并创建新的输出字符串或流以将其写出来。

告诉我们您尝试过的内容以及您当前的代码。

作为附录,我使用了以下内容: http://www.regular-expressions.info/email.html http://daringfireball.net/2009/11/liberal_regex_for_matching_urls

取得了不同程度的成功。

答案 1 :(得分:0)

通常在NLP系统中,文本将被标记化,处理URL或电子邮件地址只是减少占位符的低频令牌以减少数据稀疏性的一种情况。假设标记化能够将每个项目保存在一个标记中,则更换标记更容易 - 就像使用占位符替换所有出现小于某个阈值的单词一样。

此外,您可能希望将Baum-Welch应用于整个业务。

答案 2 :(得分:0)

String.replace()接受正则表达式和替换字符串(在您的情况下为“”)。使用正则表达式来处理电子邮件字段和网址以完成此任务。

相关问题