汉俄平行篇章依存结构语料库
Китайско-русский параллельный дискурсивный корпус официально-деловых текстов
语料库提供高质量的汉俄双语篇章依存结构标注数据,支持篇章结构研究、汉俄双语对比和自然语言处理的各种任务。
关于语料库
О корпусе
CRParDT 是一个标注有汉俄篇章依存结构信息的平行语料库,旨在为汉俄篇章结构分析与对比研究提供支持。当前,语料库主要包含中俄两国政府发布的官方文件外交文件(中俄政府联合声明与声明),所有文本来源于中国政府网站(https://www.gov.cn/)和俄罗斯政府网站(http://kremlin.ru/)。
本工作中篇章结构分析以小句为节点,句间的语义依存关系为边,构成篇章结构对,以段落为边界构建篇章依存结构树。我们基于篇章基本单位对齐和结构对对齐,实现了汉俄篇章结构对齐。汉俄双语文本的语义对应关系有效保证了两种语言篇章结构的平行分析。
目前,CRParDT共收录 24 个平行文档(包括 12 篇汉语文档和 12 篇俄语文档),共切分 1680 个汉语小句以及等量的俄语句法对应单位,并在每种语言内部构建了 1252 对篇章结构对,完成了 429 个平行段落的篇章依存结构标注。
语料库中的所有篇章结构信息均由人工标注,采用分阶段、多次标注的机制,确保标注的一致性与可靠性。
特点
Особенности
平行篇章依存结构标注
语料库中的篇章依存结构分析以小句为节点、小句间的语义依存关系为边,构建具有逻辑语义关系的小句结构对,并以段落为分割单位生成篇章级二元有向无环树图。
Разметка дискурса двух языков в рамках теории зависимостей
数据可视化
语料库网站提供动态查询和可视化分析功能,支持复杂依存关系、篇章基本单位切分、篇章语义关系、篇章连接词、句法联结类型等多种篇章结构信息的查询。
Визуализация
语言学分析友好型工具
基于依存结构的二元性、简洁性和易操作的特点,我们开发了简易的标注程序,研究人员可以直接在Excel中进行篇章结构分析,并利用我们提供的标注工具即可实现结构标注数据的可视化,无需其他专用软件。
Удобен для лингвистического анализа
语料库开发与使用说明
开发工具与技术
- XML解析:使用Python的
xml.etree.ElementTree模块进行XML文件的解析。 - 交互式图形展示:使用
vis-network库生成图形化的句子依存关系图。
Инструкция по разработке и использованию корпуса
Инструменты и технологии разработки
- Парсинг XML: Использование модуля
xml.etree.ElementTreeв Python для парсинга XML файлов. - Интерактивная визуализация: Использование библиотеки
vis-networkдля создания графического представления зависимостей предложений.
数据版权与使用限制
引用我们:
本语料库仅供学术研究和非商业用途使用。
用户在使用语料库时,必须注明数据来源,并遵守相关的版权和使用规定。
禁止将语料库数据用于商业目的或未经授权的分发。
如有任何问题或建议,请联系:xwyang@mail.ru
Авторские права на данные
Цитировать нас:
Этот корпус предназначен исключительно для академических исследований и некоммерческого использования.
Пользователи должны указывать источник данных и соблюдать соответствующие авторские права и условия использования.
Запрещается использовать данные корпуса для коммерческих целей или для распространения без разрешения.
Если какие-нибудь вопросы или предложения, свяжитесь с нами по почте: xwyang@mail.ru