什么是语料库,语料库的建立的条件?

【什么是语料库,语料库的建立的条件?】关于语料库的三点基本认识:语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;生语料库是指收集之后未加工的预料库相对而言,熟语料库就是经过加工的

什么是语料库,语料库的建立的条件?

文章插图
语料库的建立的条件?
语料库建设过程包括规划阶段、需求分析阶段、数据库框架设计、语料收集、语料导入、双语句子对齐、双语句子分词、语料校对 。
语料库的总体设计和框架设计是语料库研究和创建的第一步,决定着今后语料库研究和应用,是和研究需要和目的紧密相关的 。
在通过分析研究需求明确建库目的后,要设计语料库的规模和语料收集范围,在对语料进行收集和加工整理过程中要系统地整理,清理杂志,去除多余的无用信息,统一格式和存放方式 。
在完成清理入库工作后,还要对语料做校对工作,以确保库中语料质量,语料库的自动对齐准确率有一定差异,所以要在进行人工校对,这在段落对齐和句子对齐上也是必须的 。