Модели

Здесь представленны обученные модели для извлечения маркеров причины и следствия по векторам.

Используемые натренированные векторы: Скачать

Для нашей задачи были построены собственные модели Word2Vec для русского языка, на основании корпуса лемматизированных новостных текстов размером 360 млн слов. Перед обучением корпус подвергся минимальному препроцессингу: удалены были только такие стоп-слова, как “же”, “ж”, “ну”, “а”, “даже”, лишь”, ”и”, так как они могут размещаться между элементами коннекторов. Остальные стоп-слова и пунктуация перед обучением не удалялись, так как пунктуация и функциональные слова важны для маркеров дискурса.

Мы предлагаем две модели Word2Vec (CBOW модели, обучены на 10 эпохах с использованием Gensim python package).

Перед обучением первой модели, для каждого многословного маркера причины-следствия из первоначального списка его элементы были дополнительно объединены в единый мультитокен (например, потому_что). Для второй модели, помимо этого, также были объединены в единые мультитокены n-граммы по следующим шаблонам:

3-граммы в начале предложения, которые начинаются со всех возможных словоформ “это”;
запятая + 3-граммы со всеми возможными словоформами “что”;
3-граммы со всеми возможными словоформами “то” + запятая + как/что. Затем обе модели были обучены на корпусе.

Затем обе модели были обучены на корпусе.