用于纯文本的Ruby代码提取的正则表达式?

时间:2017-01-21 11:14:25

标签: ruby regex

我想从纯文本中提取ruby代码片段。

使用gem https://github.com/Erol/yomu可以提取PDF文档的文本。现在我想从例如ruby编程书中获得格式良好的ruby代码。

知道如何使用ruby方法和类的多行匹配的正则表达式? 我尝试了许多不同的表达方式,但没有得到我预期的结果。

1 个答案:

答案 0 :(得分:1)

试试这个

  • 逐行浏览文件并尝试将每行解析为Ruby代码
  • 如果一行解析为Ruby开始添加更多行,直到他们不再解析为Ruby代码
  • Voila,这是您的第一个代码段
  • 也许应用一些过滤器来排除像单个单词
  • 这样的琐碎片段
  • 重复

这是从非结构化文本(如电子邮件)中提取源代码的常见最佳做法。这已被用于扫描数百万封用于研究项目的电子邮件。

使用ripper核心库来解析Ruby代码。