利用python3和jieba库分析全唐诗
#CalQuantangshiV1.py
import jieba
def getText():
txt = open("quantangshi.txt", "r", encoding = "utf-8").read()
txt = txt.lower()
for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~1234567890]】【':
txt = txt.replace(ch, " ")
return txt
words = jieba.lcut(getText())
counts = {
}
for word in words:
if len(word) ==1:
continue
else:
counts[word] = counts.get(word,0) +1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
word, count = items[i]
print("{0:<10}{1:>5}".format(word,count))
结果如下
白居易 2696
何处 1652
一作 1382
不知 1381
万里 1298
杜甫 1195
今日 1153
二首 1135
春风 1135
白云 1088
千里 1054
不可 989
李白 964
长安 927
不见 918
由此可见,全唐诗中作诗数量最多的前三名是白居易、杜甫和李白。春风、白云是诗人们最喜欢讴歌的对象,唐朝首都长安是诗人们最向往的地方。