Python3 文章标题关键字提取的例子

2019-11-25 11:52:10

字体：大中小

来源：转载

供稿：网友

思路：

1.读取所有文章标题；

2.用“结巴分词”的工具包进行文章标题的词语分割；

3.用“sklearn”的工具包计算Tf-idf（词频-逆文档率）;

4.得到满足关键词权重阈值的词

结巴分词详见：结巴分词Github

sklearn详见：文本特征提取――4.2.3.4 Tf-idf项加权

import osimport jiebaimport sysfrom sklearn.feature_extraction.text import TfidfVectorizer  sys.path.append("../")jieba.load_userdict('userdictTest.txt')STOP_WORDS = set((  "基于", "面向", "研究", "系统", "设计", "综述", "应用", "进展", "技术", "框架", "txt" )) def getFileList(path): filelist = [] files = os.listdir(path) for f in files:  if f[0] == '.':   pass  else:   filelist.append(f) return filelist, path def fenci(filename, path, segPath):  # 保存分词结果的文件夹 if not os.path.exists(segPath):  os.mkdir(segPath) seg_list = jieba.cut(filename) result = [] for seg in seg_list:  seg = ''.join(seg.split())  if len(seg.strip()) >= 2 and seg.lower() not in STOP_WORDS:   result.append(seg)  # 将分词后的结果用空格隔开，保存至本地 f = open(segPath + "/" + filename + "-seg.txt", "w+") f.write(' '.join(result)) f.close() def Tfidf(filelist, sFilePath, path, tfidfw): corpus = [] for ff in filelist:  fname = path + ff  f = open(fname + "-seg.txt", 'r+')  content = f.read()  f.close()  corpus.append(content)  vectorizer = TfidfVectorizer() # 该类实现词向量化和Tf-idf权重计算 tfidf = vectorizer.fit_transform(corpus) word = vectorizer.get_feature_names() weight = tfidf.toarray()  if not os.path.exists(sFilePath):  os.mkdir(sFilePath)  for i in range(len(weight)):  print('----------writing all the tf-idf in the ', i, 'file into ', sFilePath + '/', i, ".txt----------")  f = open(sFilePath + "/" + str(i) + ".txt", 'w+')  result = {}  for j in range(len(word)):   if weight[i][j] >= tfidfw:    result[word[j]] = weight[i][j]  resultsort = sorted(result.items(), key=lambda item: item[1], reverse=True)  for z in range(len(resultsort)):   f.write(resultsort[z][0] + " " + str(resultsort[z][1]) + '/r/n')   print(resultsort[z][0] + " " + str(resultsort[z][1]))  f.close()

TfidfVectorizer( ) 类实现了词向量化和Tf-idf权重的计算

词向量化：vectorizer.fit_transform是将corpus中保存的切分后的单词转为词频矩阵，其过程为先将所有标题切分的单词形成feature特征和列索引，并在dictionary中保存了{‘特征'：索引，……}，如{‘农业'：0，‘大数据'：1，……}，在csc_matric中为每个标题保存了 (标题下标，特征索引) 词频tf……，然后对dictionary中的单词进行排序重新编号，并对应更改csc_matric中的特征索引，以便形成一个特征向量词频矩阵，接着计算每个feature的idf权重，其计算公式为其中是所有文档数量，是包含该单词的文档数。最后计算tf*idf并进行正则化，得到关键词权重。