Ru-RSTreebank. Русскоязычный дискурсивный корпус.

На этом сайте размещен Ru-RSTreebank – корпус текстов на русском языке, размеченных в рамках Теории риторической структуры, разработанной в 1980-е годы У.Манном и С.Томпсон.

Узнать больше:

Предназначение

Корпус предназначен для исследователей, заинтересованных в изучении письменного дискурса. Корпус позволяет проводить различные эксперименты по автоматическому анализу текста с привлечением данных о дискурсивных связях внутри него.

Возможные области применения: генерация текстов, извлечение фактов, автоматическое реферирование, разрешение анафоры и выявление кореферентных цепочек и т.д.

Состав

Объем корпуса: 179 текстов, около 200 000 словоупотреблений.

Жанр текстов: новостные тексты, научные статьи.

Цитирование

Просим при цитировании или упоминании материалов проекта ссылаться следующим образом: 

A: на английском языке: Pisarevskaya D. et al. Towards building a discourse-annotated corpus of Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2017”. – 2017. – Pages 194-204;
B: описание риторического парсера: Chistova E. et al. Classification Models for RST Discourse Parsing of Texts in Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2019”. – 2019.

Новости:

Май 2019: открытие сайта Ru-RSTreebank