在R中进行近似匹配(模糊)

时间:2016-09-24 07:48:06

标签: r analytics fuzzy-search text-extraction

我有一个大型数据集,专门用于股票市场价格和信息。由于数据还没有为最终分析做好准备,我现在正处于数据清理阶段,可以随时用于分析和分析。建模。

由于单元格中的信息并非全部遵循已排序的单一格式。它包含一系列不同的模式,我需要考虑这些模式。

实施例。

栏目目的

  1. DIVIDEND-RE.1 / - PER SHARE
  2. AGM / DIV-RS.3.50 PER SHARE
  3. SPL DIV-RS.2.70 PER SHARE
  4. DIV - FIN 3.50RE PER SHARE + SPL-Rs.1.4
  5. FV SPLIT Rs.10至RE.1
  6. BON 3:2 + SPLT Rs。 5至Rs.2.5
  7. BONUS 4:1
  8. DIV:10%
  9. 所以我想要一个模糊逻辑方法来检查是否存在SPLIT,DIVIDEND,BONUS以及在PURPOSE列中发生模式匹配的单元格,我需要在字符串中提取该特定模式的索引位置以提取跟随它的数值。

    在R中是否有任何方法可以确定在返回值时是否可以检查和匹配模式 - 相应字符串中的索引相同? (如果根据政府网站在数据存储中的符号,或者格式/定位/间距发生变化,以后符号将来会进一步变化 - 它可以自动解释所有这些变化。)

1 个答案:

答案 0 :(得分:0)

这是您可以考虑的替代方案,但它不会回答问题:

  1. 从NSE网站获取名称更改为csv: https://www.nseindia.com/corporates/content/securities_info.htm
  2. 使用包quantmod从雅虎获取分割和分红

    getDividends(“INFY.NS”,from =“2000-01-01”);
    getSplits(“INFY.NS”,from =“2000-01-01”)