解析非结构化数据

时间:2011-03-14 16:40:56

标签: javascript ruby-on-rails parsing computer-science

我正在编写一个书签,该书签将从网站提取信息并将其发送到用户帐户以供以后使用。这通常包括获取非结构化信息并使其结构化的问题。举个例子,一个业余爱好者想要保存项目以供日后使用。他们需要获得许多部分并遵循说明。在一个博客上,作者可以将说明称为指示配方或任意数量的同义词。一个人可以使用<li>标签列出信息以订购步骤,而另一个人可能不会。

将非结构化数据转换为结构化信息的一般策略是什么?是否有其他策略来确定哪些内容相关? (即Instapaper或可读性)

2 个答案:

答案 0 :(得分:0)

嗯......也许你可以和谷歌一起使用它?看一看头和头;元标记也是一个好主意。您还可以列出使用单词的频率。哎呀,你甚至可以有一个弹出警告,要求用户输入有关页面的数据。

答案 1 :(得分:0)

这个问题似乎没有一个好的计算机科学答案,所以我决定改变方法,让用户按照自己的意愿组织数据。