1. 定义
David Cystal: 作为语言描写的起点; 用作语言研究的数据,来验证已有的假设。
John Sinclair: 语料库是真实的自然语言,但是需要严格的设计和取样(不是随意堆积的)。
Tony McEnery, 肖中华:机器可读的、真实语言(书面或口语),经过合理取样,具有较佳代表性的文本集合。
2. 类型
通用语料库:代表语言的整体,体量较大,题材丰富(综合大超市)
专用语料库:某个领域/语体的语言
学习者语料库:外语学习者产出的语言(中介语),观察特点,反馈教学
历时语料库:语言根据时间的变迁
平行语料库:两种语言完全对应(主要用于翻译研究)
可比语料库:语言变体之间的研究