博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计
阅读量:5239 次
发布时间:2019-06-14

本文共 420 字,大约阅读时间需要 1 分钟。

import jiebaprint('top20词汇出现的次数:')#读入文本文件txt=open('G:\wgd.txt','r',encoding='utf-8').read()#清除无意义符号for i in ',。!、 \n “” ;':    txt=txt.replace(i,'')#词汇的列表d={}words=jieba.cut(txt)keys=set(words)#单词汇计数元祖的列表for i in keys:    if len(i)>1:        d[i]=txt.count(i)        a=list(d.items())a.sort(key=lambda x:x[1],reverse=True)#排序#输出前20频率词汇for i in range(20):    print(a[i])

 

转载于:https://www.cnblogs.com/wgd0069/p/7612787.html

你可能感兴趣的文章
c++ map
查看>>
exit和return的区别
查看>>
discuz 常用脚本格式化数据
查看>>
洛谷P2777
查看>>
PHPStorm2017设置字体与设置浏览器访问
查看>>
Django 相关
查看>>
git init
查看>>
训练记录
查看>>
IList和DataSet性能差别 转自 http://blog.csdn.net/ilovemsdn/article/details/2954335
查看>>
Hive教程(1)
查看>>
第16周总结
查看>>
C#编程时应注意的性能处理
查看>>
Fragment
查看>>
比较安全的获取站点更目录
查看>>
苹果开发者账号那些事儿(二)
查看>>
使用C#交互快速生成代码!
查看>>
UVA11374 Airport Express
查看>>
P1373 小a和uim之大逃离 四维dp,维护差值
查看>>
NOIP2015 运输计划 树上差分+树剖
查看>>
P3950 部落冲突 树链剖分
查看>>