中国语言学年鉴2022:2021年语料库建设及相关情况一览,购书二维码在此

2025-04-09
来源:网络整理

预订购买QR码

按住QR码以识别

购买“中国语言年度2022年”

随着大数据和人工智能技术的深入发展,语料库语言学取得了一系列新的进步。在2021年,使用语料库作为工具,在语料库结构,语料库研究和语言研究中都出现了许多成就。语料库结构具有更大的能力,并且语料库主题更加精致。语料库处理的完善程度和自动化程度得到了增强。语料库管理系统的功能扩大并提高了可用性;语料库方法被广泛用于语言学,翻译,第二语言教学和其他领域,以进行研究,并取得了成果。

以下将首先介绍2021年中国语料库建设的基本状况,包括建造现代中国语言语料库,垂直领域特殊语料库,平行语料库,中介语料库和多模式语料库;然后描述语料库处理和管理方面的新进展,并介绍与语料库相关规格的修订,其中语料库管理重点是语料库分析系统的开发;最后,查看语料库在不同领域的应用。

中国语料库建设的基本情况

在2021年的国家社会科学基金项目中,有18个涉及语料库的项目,包括2个主要项目,3个关键项目和13个通用项目。 the 18 , are four that , the " and on the of - - on ", the " on ​​in the Sino- Area" " on the and of Qin - ", "In- on the 以及关于中央平原古首都的普通话和金语言建设的研究。其余的是基于语料库的研究项目。此外,在2021年,中国社会科学院将“中国的国家语料库建设”列为“ 14五年计划”的关键建筑项目,预计将在五年内完成。

在语料库的建设方面,2021年没有新的大规模中国大规模发行。多个专业库库是在语言研究和其他垂直领域的新建。平行库库和中介库已经发展了;多模式库库非常受欢迎,国内学者在多语言,多场和多功能方面进行了新的尝试。

(i)构建中国语料库进行语言研究

师范大学于2021年正式发布了“ Zuo 历史人文知识基础”。知识库基于QIN的历史经典“ Zuo ”。除了单词分割和言论部分注释外,它还标志着名称,地点名称,国家和地理位置信息,形成了多维注释人文知识基础。 them, the of and part-of- has been used in the of and part-of- held in from 2021 to 2022. The base uses to an , the of the time and of , and , and the of , new , data and for in文学,历史和语言。

美国语言数据联盟(LDC)平台正式发布了由师范大学和美国布兰德斯大学共同构建的中国抽象语义表示语料库(2.0版,称为CAMR V2.0)。该语料库包含标记语料库的句子,并使用基于()的形式表示方法来精心处理整个中文句子的语义。随着2020年国际跨语义语义分析评估的培训和评估数据,该语料库的标记效应几乎与英语相同,大大提高了对中国人的语义自动分析的准确性,从约60%增加到81%,从而促进了中国句子的自动分析技术。

组合结构是中文中常见的动词结构。 Hou ,Qu ,Wei 等[ of ( of in in for in in in in in 撰写)(构建中国AMR注释系统组合的组合和对中国AMR注释系统组合的认识)的构建。 4760个组合句子,弥补了这种语料库的差距。

零参考是中文中的常见现象,在许多自然语言处理任务中起着重要作用,例如中文 - 英语机器翻译,文本摘要和阅读理解。现在,它已成为自然语言处理领域的研究热点。 Kong Fang, Ge and Zhou 's " of Zero- from the " ( of , 12) a Zero- from the , and 325 with zero- , and a Zero- .从章节的角度来看,该语料库将为零参考中国研究的研究提供必要的支持。

农业网站建设综述及建设过程_建设综述农业网站过程怎么写_农业综合网站

言辞问题是中文中常用的表达式,具有丰富的情感色彩。正确识别修辞问题将改善诸如情绪分析之类的任务结果。 Li ,Zhu ,Liu 等[ 杂志(自然科学版)]提出了一种半自动的rang-ask语料库收集方法,基于半自语的学习和活跃学习,并用新闻评论构建了一个,,loss and ,构建了中国中国人的朗斯斯·斯斯基斯语料库语料库的新闻评论。

此外,Wang ,Rao 和Xun 的“基于大规模语料库的现代中国动词 - 对象协调知识基础”(《中国信息科学与技术杂志》,第1期)总结了动词对象的知识体系,该知识系统与相应的正式搜索方法进行了匹配和制定相应的正式搜索方法。通过从BCC语料库中提取动词对象匹配和初步歧义,获得了包含300万个动词对象匹配对的匹配知识库。

(ii)为垂直领域的特殊语料库建造

此外,其他垂直领域还广泛使用语料库来促进该行业的发展,并对以行业为导向和专业的小型语料库进行研究。这些成就包括:

北京外国研究大学DEAP学术英语语料库的多个子商店的建设已经完成。 Han and Yan 's " of the Art " ( of " 1), Wang Li, Liu Di and Zou Qian's " of the " ( of " 1), and Wu 's " of the " ( of " 1),张·勒( Le)的“统计学术英语语料库的创建”(语料库语言学的创建”第2期),朱小家(Zhu )和吴敏(Wu Min)的“数学学术英语语料库的创建”(分别介绍了这些子语言学语言学语言学2),分别引入了这些基础的构建,为这些基础的教学和研究资源介绍了专业的专业人士(ESS)研究员(ESS)。

在生态农业旅游业领域,为了为海外游客提供便利性,并更好地实现旅游文化促进,满伊·吉(Zhai Jie)的“创造和分析生态农业旅游业语料库的创造和分析”(《核农业杂志》,第7期)创建并创建并分析了生态农业旅游业的效力,可以使旅游融入到环境中,并能够为企业提供了行动,并可以为生态提供农业的态度,并为生态旅游业提供了农业,并且是为了使农业的使用效率,并且可以为农业提供农业,并为环境提供了农业。在很大程度上提高了旅游英语表达的规范性质和旅游英语学习的质量。在化学工业中,陈冯,黄阳和王海尼的“化学英语语料库的建筑和应用前景”(物质保护问题3)研究了化学英语语料库的建设和应用前景。这种类型的语料库对于化学英语的教学和翻译研究以及化学经济的发展具有实际意义。 Ma 的“在谷物,石油和食品合同中及其在翻译中的应用中的英语 - 中国平行语料库的建设”(“中国石油和脂肪”第9号)解释了英国 - 中国平行语料库在谷物和石油和食品合同中的建设过程,并研究了其在翻译中的应用。 Li 的“材料的建设和应用英语语料库 - 审查“复合材料和工程专业英语”(材料保护问题3)研究了材料英语语料库的构建和应用。

(iii)平行语料库的构造

Xu 和Xu 的“英语 - 中国平行语料库的创建”(“核心语言学”第1期)介绍了由北京外国研究所建造的英语 - 中国平行语料库的构建。该语料库是根据布朗语料库模型创建的英语 - 中国平行语料库。它是由Xu 和Xu 以及其他人设计的,该集合的分类和对齐。气味包含四种类型:新闻,一般,学术和小说,可以细分为15个子类别。该语料库库包含500对英语平行文本,每对文本包含大约2,000个原始英语文本及其相应的中文翻译。语料库的总大小约为260万个单词,其中包括原始英语的1,005,249个单词和中文翻译中的1,625,701个单词。

Sha jiu,Feng ,Zhou 和其他人提出了一种轻巧的构造方法,该方法是为藏族 - 中国 - 司法领域的司法司法官方,并基于160,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000米在司法领域的高质量开源开源藏语藏语平行语料库(《中国信息科学与技术杂志》第11期(《中国信息科学与技术杂志》第11期),Sha Jiu,Feng ,Feng ,Zhou 和其他人提出了一种轻巧的构造方法构造。

Li 和Hu 在“ XI :中国治理中的多语言平行语料库的建设和应用”(“外语电子教学”第3期)介绍了29种语言的多语言平行语料库的构建。该语料库包含“ XI :中国治理”的第一,第二和第三册中所有已发表的原始文本及其翻译。

Hu and Wang 's " and of of " ("Core " 1) the of of , the of , , , , and and of of .它旨在提供基于参考的方法和标准,以在其他语言中构建平行的参考链语料库,并为中国父亲参考链的比较研究和应用提供经验示例和数据模型。

(iv)中间语料库的建设

由北京语言和文化大学领导的“全球中国中国中级语料库”(版本1.0)将于2021年向世界开放,张鲍林的“全球中国中国中级中级语料库”(1.0版)将免费向世界开放。语料库标签的内容包括10个级别,包括汉字,词汇,短语,句子和句子组成部分,话语,样式,单词模式,标点符号,口头语料库以及视频语料库的语音注释,以及姿势和言语的注释。

“基于句法注释语料库的中间动词定价开发的研究”(“语言和文本应用程序”第1号),hao ,Wang 和Liu 的研究包括构造句法注释语料库。基于语料库,该论文就一年级的一年级至4年级的一年级到四年级的中国动词的定价进行了定量研究,为第二语言教学提供了参考。

(v)建造多模式语料库

2021年,国内学者在建造多语言,多场和多功能多模式语料库方面做出了新的尝试。

农业综合网站_农业网站建设综述及建设过程_建设综述农业网站过程怎么写

基于对多模式情感语料库中的相关研究和情感分类方法的分析,Xu ,Liu Xin,Yuan Wei等人,俄罗斯多模式情感语料库组成了181个场景,由3,278个和82个发言人和82个求职者求解众所周知。

Lihe和Wu Yun的“基于真实经验和建模的多模式解释教学语料库的建设和应用”(外语教学理论和实践问题4)研究了基于真实经验和建模的多模式解释教学语料库的构建和应用。基于真实性建模的概念总结了解释活动的个人经验过程与解释教学的经验之间的关系,总结了分析框架的构建和提取功能,并使用Elan工具来标记基于此想法的上下文解释语料片段,这是指向中国构建中国构建中国教学语料库的重要性,该构建可以触发学生的经验。

“基于医学成像分割方法的多模式语料库的构建”(“参数识别和人工智能的第4期”),林·, , 等人构建了与青光眼症状相关的多模态语料库。在图书馆施工过程中,提出了一种基于深度集合算法的医学图像分割方法,以进行青光眼症状分割的实验。实验结果可以准确地分割眼底图像中的视觉盘和视觉杯。基于细分结果,通过自然语言处理技术结合使用电子病历文本的标签。该语料库将有助于对疾病的未来评判和分析。

Lin , Long , Li Biao and a deep on in " and of on and " [ of ( )" No. 2] to and of , and use the to a .

Li 和Tang 使用软件来分析2009年至2020年国内多模式翻译的当前研究状况在“国内多模式翻译研究的视觉分析:当前的状况,问题和建议” [北京科学与技术大学杂志(社会科学版杂志)“第5号)”。自2015年以来,该研究基于多种模量的构建,该领域的构建在多模型或构建方面,该研究的构建是多模型的构建,该研究的构建是多模型的构造,逐渐增加。

“基于多模式语料库的痴呆症老年人的言语和行为特征的研究”(《海外英语》第20期),由孙徐,刘·李,富佐耶等人通过现场收集记录了疗养院的现场状况,并用伊兰工具标记了语料库。建立了两个多模式的语料库,用于老年人的单词和契据,以及老年人和未来的单词和行为,这有助于预警,康复和医疗护理,以期为阿尔茨海默氏病。

待续

相关链接:

>>>中国社会科学学院互联网信息办公室的编辑

今天的语言学

语言的奇迹是难以形容的

分享