非结构化文本到结构化数据

时间:2010-07-01 23:48:54

标签: python nlp structured-data

我正在寻找有关以类似于Google日历快速添加按钮的方式构建非结构化文本的参考资料(教程,书籍,学术文献)。

我知道这可能属于NLP类别,但我只对从“Levi jeans size 32 A0b293”这样的过程感兴趣

to:Brand:Levi,Size:32,Category:Jeans,code:A0b293

我想这将是词法解析和机器学习技术的结合。

我更倾向于语言,但如果被推,则更喜欢python,Matlab或C ++引用

由于

4 个答案:

答案 0 :(得分:7)

您需要提供有关文本来源(网络?用户输入?),域名(它只是衣服?),潜在格式和词汇的更多信息......

假设最坏的情况你需要开始学习NLP。一本非常好的免费书是NLTK的文档:http://www.nltk.org/book。它也是一个非常好的Python介绍,SW是免费的(用于各种用途)。警告:NLP很难。它并不总是有效。有时候这不好玩。最先进的技术并不在你想象的地方附近。

假设一个更好的场景(你的文字是半结构化的) - 一个好的免费工具是pyparsing。有一本书,很多例子,结果代码极具吸引力。

我希望这会有所帮助......

答案 1 :(得分:1)

可能看看Toby Segaran的“集体智慧”。我似乎记得在一章中解决了这个问题的基础知识。

答案 2 :(得分:1)

经过一番研究后,我发现这个问题通常被称为信息提取,并积累了一些论文并将其存储在Mendeley Collection中

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

同样正如Tai Weiss所说,用于python的NLTK是一个很好的起点,本书的this章,专门研究信息提取

答案 3 :(得分:0)

如果你只是为你所引用的例子而工作,你最好使用一些100%可预测的基于手动规则,并涵盖可能遇到生产的90%的情况。

您可以列出所有可能的品牌和类别的列表,并检测哪个在输入字符串中哪个通常在这两个列表中只有很少的交集。

可以使用正则表达式轻松检测和提取其他两个。 (1-3位数字总是大小等)

您的问题域似乎不足以保证更重要的方法,例如统计学习。