第三章 语料库方法二:检索复杂结构
1. 正则表达式(大范围/限定性检索):用一些符号来匹配文本中的字符,将单词含义传达给计算机的媒介
2.操作技术:
-软件:EditPad Pro 文本查看及编辑器
3.
1)表达范围的符号:
.=任意字符
\s=空格
\S=非空格
\w=构词字符(所有的字母、数字。。。。)
\W=非构词字符(标点、空格)
\d=数字
\D=非数字
2)对字母进行限定性检索的符号:
\b=给字母(组合)前后加边界
\u=大写(case键检查)
\l=小写
2.词性赋码集(词类、格、时态、体、语态的检索)