从txt文件导入小说/非小说类

时间:2019-01-23 12:43:10

标签: python

我研究文学,试图弄清楚如何将一系列.txt或其他格式的小说导入python,以使用不同的词频,相似度等来进行游戏。我希望尝试建立一些定量的定义主题以外的类型的方法。

我特别想看看在每本小说中是否都出现了某些单词,概念和位置。这样的东西:(http://web.uvic.ca/~mvp1922/modmac/)。然后,我想专注于一部小说,将过去的数据作为比较,并针对角色移动以及与其他角色的互动进行单独分析。

对于这个含糊,不清楚或愚蠢的问题,我感到非常抱歉。我才刚开始。

1 个答案:

答案 0 :(得分:0)

欢迎使用StackOverflow!

这是一个非常非常重要的话题。如果您只是入门,我会推荐this book,它会带您使用Python的nltk库了解NLP的一些基础知识。 (如果您已经对Python有所了解,而不仅仅是NLP,那么本书的某些部分会有些基础。)我已经将这本书用于大学课程的教学,并对此有很好的经验。

一旦掌握了基础知识,听起来您基本上就有了文本分类(或可能是聚类)的问题。关于此主题有很多不错的教程,包括许多使用Python库的教程,例如scikit-learn。为了更有效地使用Google搜寻,您还需要探讨的其他主题是“单词袋”(忽略句子结构的分析,很可能是您开始使用的方法)和“命名实体识别”(如果要识别字符) ,位置等)。

对于将来的问题,获得关于SO的有用答案的最佳方法是发布您正在苦苦挣扎的特定代码示例-this是如何实现此目的的好资源。许多用户会避免使用open-ended questions,但会遇到一个明确的要解决的难题,而困惑不解。

学习愉快!