中文正则表达式检索
需求
代码
# -*- coding: utf-8 -*-
# 适用版本:python 2.7.15
import sys
import re
import os
reload(sys)
sys.setdefaultencoding('utf8')
result_list = []
pattern = re.compile(u"[\u4e00-\u9fa5]+") #定义正则表达式
fs = os.listdir('files')
for i in range(len(fs)): #构造文件路径
fs[i] = 'files' + '/' + fs[i]
for i in range(len(fs)):
f = open(fs[i]) #打开文件
for line in f :
t = u'' + line.strip().encode('utf8')
# print(t)
result_temp = re.findall(pattern, t) #进行匹配
result_list = result_list + result_temp #将两个列表合起来,result_list每次都新增这次新找到的
print(fs[i],' is finished') #提示一下这个文件已完成
f.close() #关闭文件
result_list_to_write = '\n'.join(result_list) #用换行符拼接成整一个字符串,方便写入文件
f = open('result.txt','w')
f.write(result_list_to_write)
f.close() #写入文件完成
print('result file is ok') #又是提示一下,完工啦,啦啦啦啦啦汉字转拼音
检索
最后更新于