Модели
Здесь представленны обученные модели для извлечения маркеров причины и следствия по векторам.
Используемые натренированные векторы: Скачать
Для нашей задачи были построены собственные модели Word2Vec для русского языка, на основании корпуса лемматизированных новостных текстов размером 360 млн слов. Перед обучением корпус подвергся минимальному препроцессингу: удалены были только такие стоп-слова, как “же”, “ж”, “ну”, “а”, “даже”, лишь”, ”и”, так как они могут размещаться между элементами коннекторов. Остальные стоп-слова и пунктуация перед обучением не удалялись, так как пунктуация и функциональные слова важны для маркеров дискурса.
Мы предлагаем две модели Word2Vec (CBOW модели, обучены на 10 эпохах с использованием Gensim python package).
Перед обучением первой модели, для каждого многословного маркера причины-следствия из первоначального списка его элементы были дополнительно объединены в единый мультитокен (например, потому_что). Для второй модели, помимо этого, также были объединены в единые мультитокены n-граммы по следующим шаблонам:
Затем обе модели были обучены на корпусе.