Ru-RSTreebank. Русскоязычный дискурсивный корпус.

На этом сайте размещен Ru-RSTreebank – корпус текстов на русском языке, размеченных в рамках Теории риторической структуры, разработанной в 1980-е годы У.Манном и С.Томпсон.

Узнать больше:

Предназначение

Корпус предназначен для исследователей, заинтересованных в изучении письменного дискурса. Корпус позволяет проводить различные эксперименты по автоматическому анализу текста с привлечением данных о дискурсивных связях внутри него.

Возможные области применения: генерация текстов, извлечение фактов, автоматическое реферирование, разрешение анафоры и выявление кореферентных цепочек и т.д.

Состав

Объем корпуса: 333 текстов, около 328 000 словоупотреблений.

Жанр текстов: новостные тексты, научно-популярные тексты, научные статьи и тексты блогов.

Новости

Декабрь 2019: пополнение корпуса текстами социальных медиа (блогов)
Май 2019: открытие сайта Ru-RSTreebank
Август 2022: обновлена разметка новостей и блогов. Исправлены структурные ошибки и нечитавшиеся файлы, улучшена внутренняя согласованность разметки.

Цитирование

Просим при цитировании или упоминании материалов проекта ссылаться следующим образом: 

A: на английском языке: Pisarevskaya D. et al. Towards building a discourse-annotated corpus of Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2017”. – 2017. – Pages 194-204;
B: описание риторического парсера: Chistova E. et al. RST Discourse Parser for Russian: An Experimental Study of Deep Learning Models // Proceedings of Analysis of Images, Social Networks and Texts (AIST). — 2020. — P. 105-119.