用于字符和文本处理的资源(编码,正则表达式,NLP)

时间:2010-05-01 02:54:28

标签: parsing text encoding text-processing linguistics

我想学习编码,字符和文字的基础。了解这些对于处理大量文本非常重要,无论是日志文件还是用于构建集体智慧算法的文本源。我目前的知识非常基础:“只要我使用UTF-8,我就没事。”

我不是说我需要马上学习高级主题。但我需要知道:

  • 编码的位和字节级知识。
  • 英语中未使用的字符和字母。
  • 多字节编码。 (我理解一些中文和日文。解析它们很重要。)
  • 正则表达式。
  • 文本处理算法。
  • 解析自然语言。

我还需要理解数学和语料库语言学。当前和未来的Web(语义,智能,实时Web)需要处理,解析和分析大文本。

我正在寻找一些资源(也许是书籍?)让我开始使用一些子弹。 (我在Stack Overflow上找到了很多关于正则表达式的有用讨论。所以,你不需要就该主题建议资源。)

2 个答案:

答案 0 :(得分:3)

  • 除维基百科外,编码的Joel Spolskys article也非常好。
  • 这个免费的character map是所有unicode角色的不错资源。
  • 正则表达式 tutorial可能会有所帮助。
  • 特别是在 NLP 日语上,您可以 看看这个Japanese NLP 项目
  • 文字处理上,this打开 源项目可能很有用。

答案 1 :(得分:0)

对于大多数一般“我想学习X主题”的问题,维基百科是一个很好的起点:

http://en.wikipedia.org/wiki/Character_encoding

http://en.wikipedia.org/wiki/Natural_language_processing