从R

时间:2017-04-03 15:13:07

标签: r machine-learning nlp token text-mining

我有一个移动短信的数据集,特别是我想提取某些细节,如数据平衡,使用R到期日期,我已经使用NLP和正则表达式进行了标记化,但事情是我无法提取日期如果短信格式如下所示: 您的46.35 MB数据将在2017-02-08上过期。购买任何数据计划以继续享受该服务。文本帮助229获取更多信息。 请注意,在2017-02-08,句点(。)和buy之间没有空格,因此在标记化R时将其视为单个标记。如果我用空格替换句点,则提取数据量(46.35 MB)将变得困难。 任何人都可以建议我是否可以使用一些文本建模或训练机器来提取这些细节,即使SMS的格式随时间变化 我的短信格式(结构)会有所不同。那么我可以训练数据集吗?如何继续? 我的输出应该是 数据余额,到期日以及未来的其他细节。

0 个答案:

没有答案