cz| en| ru
О нас | Члены группы | Корпус чешского стиха | Инструменты on-line | Публикации / проекты | Материалы в свободном доступе | Сотрудничество | Контакты | Ссылки

Hex – ключевые слова в чешской поэзии

ПОИСК КЛЮЧЕВОГО СЛОВА
ПОИСК В БАЗЕ ДАННЫХ


имена существительные
имена прилагательные
местоимения
имена числительные
глаголы
наречия
предлоги
союзы
частицы
междометия
Минимальное количество:

Уровень значимости (α):

О приложении

Приложение Hex позволяет искать в Корпусе чешского стиха тексты, содержащие введенное пользователем ключевое слово, и наоборот, в совокупности текстов, выбранной пользователем, отображать все найденные в них ключевые слова.

В качестве ключевых слов обозначаются леммы, частота которых в данном стихотворении статистически значимо превышает их частоту во всем Корпусе чешского стиха. Статистическая значимость одновременно проверяется тестом χ2 с поправкой Йейтса и тестом log-likelihood. У пользователя есть возможность выбрать, при каком уровне значимости α = 0,001 (т.е. с 0,1% риска ошибочного обозначения леммы как ключевого слова в результате случайно повышенной частоты появления слова в данном стихотворении) или α = 0,01 (т.е. с 1% риска того же). Наряду с этим пользователь может исключить из анализа ключевых слов некоторые части речи (в исходном положении в поиск включаются только имена существительные, имена прилагательные и глаголы) и установить минимальное количество появлений леммы в стихотворении, в зависимости от которого слова будут определяться в качестве ключевых.

Для проведения анализа ключевых слов в любых других текстах рекомендуется использовать разработанное Институтом Чешского национального корпуса Философского факультета Карлова университета приложение KWords, на принципах функционирования которого мы основывались при создании приложения Hex.

МОДУС 1: ПОИСК КЛЮЧЕВОГО СЛОВА

Искомое слово

В поле «Искомое слово» набирается любое выражение, для которого нужно найти рифменные пары. Поиск основан на точности звуковой формы и строгом различении знаков с диакритикой, величина букв при поиске не имеет значения. Например, рифмы для слова třpyt (рус. «блеск») будут найдены при наборе вариантов třpyt, Třpyt или TŘPYT, и не будут найдены при наборе třpy или trpyt.

Автор

Поиск можно ограничить творчеством одного или нескольких авторов. Величина букв при наборе имени автора / авторов не имеет значения; поиск основан на строгом различении диакритики и соответствии набранной последовательности букв с начальными буквами имени автора (формат ввода: «фамилия, имя / имена», например: Erben, Karel Jaromír). Например, при набранной последовательности mach в фильтр будут включены Mach, Machar, Macháček, а не Mácha. Символ «|» используется в качестве логического оператора ИЛИ, т. е. при наборе последовательности auř|bor в фильтр включаются Auředníček, Borecký и Bort.

С/по

Поля «с» / «по» предназначены для ограничения поиска стихов по времени их публикации. Например: «с» 1850, «по» 1870. Для поиска стихов одного года необходимо набрать год как в поле «с», так и в поле «по», например для 1820 года: «с» 1820, «по» 1820.

Результаты поиска

Результаты поиска изображаются в виде графика и таблицы.

Заголовок

В заголовке графика и таблицы изображается число найденных документов (1), т.е. общее число стихотворений, в которых (при установленных фильтрах) было найдено искомое пользователем ключевое слово, а также совокупность установленных фильтров (2) в формате a|б|в(г;д;е):

(а) AUT: последовательность символов, определяющая автора;
(б) SB: последовательность символов, определяющая сборник (недоступно в модусе 1);
(в) временной промежуток (в случае использования);
(г) выбранный уровень значимости;
(д) выбранное минимальное количество появлений леммы;
(е) включенные в анализ части речи (A – имя прилагательное, C – имя числительное, D – наречие, I – междометие, J – союз, N – имя существительное, P – местоимение, R – предлог, T – частица, V – глагол).

График

На графике по годам отображается количество стихотворени, содержащих искомое ключевое слово. При переключении изображений меняется информация (3):

(а) AF: абсолютная частота, т.е. число стихотворений с искомым словом по годам;
(б) RF (стихотворения): относительная частота по отношению к числу стихотворений, т.е. число стихотворений с искомым словом в определенном году, разделенное на число всех стихотворений, опубликованных в данном году;
(в) RF (стиха): относительная частота по отношению к числу стихов, т.е. число стихов с ключевым словом в отдельном году, разделенное на число всех стихов, содержащихся в стихотворениях, опубликованных в данном году;
(г) RF (слова): относительная частота по отношению к числу слов, т.е. число ключевых слов в отдельном году, разделенное на количество всех слов, содержащихся в стихотворениях, опубликованных в данном году.

С помощью мыши можно выделить и увеличить интересующую деталь графика.

Таблица

В таблице изображаются все найденные случаи появления ключевого слова:

[Autor] автор стихотворения;
[Báseň] название стихотворения (одновременно является ссылкой на страницу с подробным описанием стихотворения, содержащим все его ключевые слова);
[Sbírka] название сборника, из которого происходит найденный пример (одновременно является ссылкой на полный текст сборника в Чешской электронной библиотеке); 
[Rok] год издания сборника;
[AF] абсолютная частота, т.е. число появлений ключевого слова в стихотворении;
[RF] относительная частота, т.е. число появлений ключевого слова в стихотворении, разделенное на число всех слов в стихотворении;
[φ]  коэффициент φ = (χ2 / n)0,5

МОДУС 2: ПОИСК В БАЗЕ ДАННЫХ
Наряду с поиском определенного ключевого слова приложение Нех позволяет устанавливать все имеющиеся ключевые слова, найденные (в соответствие с заданными параметрами) в совокупности текстов, ограниченной с помощью фильтров «автор» | «сборник» | «с/по». Работа с фильтрами «автор» и «с/по» происходит так же, как в модусе 1 (см. выше).

Сборник / стихотворение

Фильтры «сборник» и «стихотворение» предназначены для более точного определения совокупности анализируемых текстов. Для данных фильтров (как и для фильтра «автор») величина букв при введении задания не имеет значения, фильтры основаны на строгом различении диакритики и на соответствии заданной последовательности символов начальным буквам названия стихотворения / сборника. К примеру, при набранной в поле «сборник» последовательности di в анализ включаются сборники с названиями Divotvorný snář, Divadelní popěvky, Divoká labuť, Divoké ovoce и исключаются сборники с названиями kůvzdání или, например, Podivné jitro. Символ «|» используется в качестве логического оператора ИЛИ, т.е. при наборе последовательности «sní|taj» в поле «сборник» в анализ включаются сборники Sníh, Tajemné dálky и Tajemná sfinx.

Упорядочение

Пользователь имеет возможность упорядочить по алфавиту полученные результаты в соответствии с фамилиями авторов, названиями сборников, годами издания, названиями стихотворений, а также при необходимости получить частотный список найденных кдючевых слов.

Результаты поиска

В заголовке страницы с результатами поиска отображается совокупность фильтров (см. выше).

Далее отдельно приводятся найденные стихотворения со включением следующих данных:

(1) имя автора, название стихотворения, название сборника и год издания;
(2) список ключевых слов (приводимые в скобках буквы обозначает части речи – см. выше);
(3) ссылка на стихотворение.

Результаты – частотный список найденных ключевых слов

Частотный список отображает все ключевые слова, найденные (в соответствии с заданными параметрами) в ограниченной совокупности текстов в следующем формате:

(1) число стихотворений, в которых было найдено данное ключевое слово;
(2) данное ключевое слово;
(3) часть речи (см. выше).

Na Florenci 3/1420, 110 00 Praha 1
+420 222 828 148
Профиль Стиховедческой группы

Поделиться

Разработка размещенных на сайте приложений, создание самого сайта, а также его перевод на английский (Gabriela Brůhová) и русский языки (Evgenia Tumanova) были осуществлены при поддержке Грантовой агентуры Чешской республики (P406/11/1825), а также при поддержке, направленной на долговременное концептуальное развитие исследовательского учреждения 68378068.
© 2014 Petr Plecháč