cz| en| ru
О нас | Члены группы | Корпус чешского стиха | Инструменты on-line | Публикации / проекты | Материалы в свободном доступе | Сотрудничество | Контакты | Ссылки

Корпус чешского стиха

Корпус чешского стиха
Корпус чешского стиха (КЧС) представляет собой лемматизированный, фонетически, морфологически, метрически и стофически аннотированный корпус чешской поэзии XIX – начала XX вв. *
Каждой словоформе в корпусе приписана следующая информация: начальная форма данного слова (лемма), фонетическая транскрипция и грамматические категории; для каждого стиха определены метр (ямб, хорей и т.д.), число стоп (n-стопный), тип клаузулы (мужская, женская и т.д.) и метрическая схема. (В настоящее время метрически аннотируются только силлабо-тонические стихи.) На высших уровнях размечаются рифмующиеся стихи и твердые формы (сонет, рондель и т.д.). Поиск в метрическом и строфическом описаниях осуществляется с помощью Базы данных чешских метров, частичный доступ к уровню лемматизации возможен посредством Частотных словарей, поиск рифменных пар происходит в приложении Gunstick
КЧС основан на текстах Чешской электронной бибилиотеки, которой однако содержатся дублетные единицы (повторное появление стихотворений в различных изданиях поэтических сборников или в собраниях сочинений автора). Во избежание искажения статистических данных было принято решение включать в КЧС лишь одну, самую раннюю версию каждого опубликованного стихотворения (список исключенных стихотворений находится здесь). При этом соответствие стихотворений определялось на основе сходства их фонетических транскрипций. Таким образом было исключено влияние на отбор пунктуационных различий в повторяющихся стихотворениях, а также одновременно препятствовалось отстранению версий текстов в переизданиях с внесенными (пусть и небольшими) изменениями.
* Лемматизация и морфологическая разметка были любезно предоставлены сотрудниками Института теоретической и компьютерной лингвистики Философского факультета Карлова университета (Hana Skoumalová, Milena Hnátková, Tomáš Jelínek a Vladimír Petkevič) и Института формальной и прикладной лингвистики Математико-физического факультета Карлова университета (Jan Hajič, Jaroslava Hlaváčová).

Основные характеристики Корпуса чешского стиха:

  • 1 689 сборников стихотворений,
  • 76 699 стихотворение,
  • 2 664 989 стихов,
  • 14 592 037 слов

Состав Корпуса чешского стихаs

Число стихотворений

» Число стихов «

Число слов

» Год издания «

Год рождения автора

Na Florenci 3/1420, 110 00 Praha 1
+420 222 828 148
Профиль Стиховедческой группы

Поделиться

Разработка размещенных на сайте приложений, создание самого сайта, а также его перевод на английский (Gabriela Brůhová) и русский языки (Evgenia Tumanova) были осуществлены при поддержке Грантовой агентуры Чешской республики (P406/11/1825), а также при поддержке, направленной на долговременное концептуальное развитие исследовательского учреждения 68378068.
© 2014 Petr Plecháč