使用正则表达式从文本文件(python)中获取文件夹的标题

时间:2015-07-09 16:47:02

标签: python regex path with-statement

我正在尝试使用正则表达式来读取文本文件,并根据正则表达式找到的内容在某个目录中创建一个文件夹。我阅读的文本文件是我想从中抓取文件夹标题的页面的一些HTML源代码。 (这就是正则表达式搜索奇数值的原因)

This是我正在阅读的文件。 (它的超长)

这是我的代码:

import os
import re
with open('folders.txt','r', encoding='utf-8') as f:
  lines = f.readlines()

  match = re.search(r'>[\w\.-]+</a></td>', lines)
  match = match.rstrip("</a></td>")
  match = match.lstrip(">")
  newpath = r'C:\Desktop\scriptFolders\%s' %match
  if not os.path.exists(newpath): os.makedirs(newpath)

当我将此代码抛入shell时,它会给我以下错误:

Traceback (most recent call last):
File "<stdin>", line 4, in <module>
File "C:\Python34\lib\re.py", line 170, in search
  return _compile(pattern, flags).search(string)
TypeError: expected string or buffer

我离赛道有多远?

1 个答案:

答案 0 :(得分:0)

您的代码存在许多错误和潜在的改进。它们在散文中不容易解释,所以这里是代码的工作版本,其中的注释突出了它们背后的变化和原因。

DT[carb == 1, (sapply(DT[carb == 1],sum) < 10), with = FALSE]  

参考文献:

  1. Capture groups
  2. Match objects