第五章 语料库方法四:生成词表
1.词表、词形还原表、停用词表
1)词表(Word list):词汇列表,把语料库中每个词出现的频数/频率列成一个清单
2)词性还原表(lemma list): 同一个语言原型的不同变化形式(was,is-->be)
3)停用词表(stop list):把屏蔽不看的词列成表格
4)操作技术:生成词表、词形还原表、停用词表、词云
软件:AntConc,Tagxedo(在线)
5)如何得到学术文体的常见词表?
6)如何得到最近新闻的热点词汇?
第五章 语料库方法四:生成词表
1.词表、词形还原表、停用词表
1)词表(Word list):词汇列表,把语料库中每个词出现的频数/频率列成一个清单
2)词性还原表(lemma list): 同一个语言原型的不同变化形式(was,is-->be)
3)停用词表(stop list):把屏蔽不看的词列成表格
4)操作技术:生成词表、词形还原表、停用词表、词云
软件:AntConc,Tagxedo(在线)
5)如何得到学术文体的常见词表?
6)如何得到最近新闻的热点词汇?
Antconc: word list,,start; tool preference, lemma, apply, start; tool preference, use GSL
Taxsego词云