×
Traktatov.net » Актуальные проблемы современной лингвистики » Читать онлайн
Страница 225 из 236 Настройки

Но все это относилось к идентификации изолированных слов. Мы же попытались использовать ту же идею при «работе» с непрерывной последовательностью слов, не разделенных какими бы то ни было метками сегментации, т.е. возможности того же алгоритма оценивались применительно к распознаванию слитной речи, которая характеризуется как раз отсутствием границ между словами, образующими высказывание (синтагму). Одна из вытекающих при этом сложных проблем заключается в том, что единый процесс идентификации-сегментации предполагает нахождение правой границы слова. В нашей модели анализируемый текст считывается из файла слово за словом и записывается в строку без пробелов и знаков препинания. Начальная часть строки длиной в 7 – 9 открытых слогов представляет собой буфер, с содержимым которого работает в дальнейшем программа. Объем буфера выбран на основании имеющихся данных об объеме оперативной (кратковременной) памяти человека (7+2 слога). На этом этапе алгоритм работы программы, скорее всего, не соответствует предполагаемому алгоритму работы системы распознавания речи человеком и выбран таковым только из условия удобства программной реализации процесса.

По первому символу строки-буфера начинается процесс образования текущей когорты. Для орфографической записи при этом применяются следующие правила: (1) если первая буква не является допустимым однобуквенным словом, не содержащим ударного гласного (союзом, предлогом), то происходит только определение объема когорты, сама же когорта как набор слов не создается (это чисто программистский ход, экономящий время); если первая буква является допустимым однобуквенным словом, то из соответствующей словарной статьи в промежуточный буфер записывается слово-кандидат, а из остальных словарных статей выбираются данные об их объеме для сбора статистики; (2) заполнение когорты производится по двум первым буквам буфера-строки (или только по первой, когда это ударный гласный, поскольку по чисто техническим причинам ударные гласные представлены в текстах и в словарных статьях двухсимвольными сочетаниями: собственно гласный и знак ударения «+»; равным образом согласные тоже могут иметь двухсимвольные соответствия с учетом «ъ» или «ь»); (3) буфер слов-кандидатов заполняется до тех пор, пока N первых символов в исходном буфере совпадают хотя бы с одним словом в когорте и прекращается, когда добавление еще одного элемента создает комбинацию, не представленную в словаре; вслед за этим начинается анализ слов-кандидатов.

Правила работы с транскрипционной записью полностью аналогичны приведенным выше.

В данный момент при выборе окончательного варианта из всех слов-кандидатов принято самое простое правило: окончательным считается слово, последним занесенное в список, – при условии, что сохраняется возможность идентификации через словарь «оставшейся» цепочки. Это вполне соответствует правилу отбора, сформулированному в теории когорты: выбирается только слово, полностью и без остатка совпадающее с входной последовательностью символов.

На материале как беспробельной орфографической, так и транскрипционной записи рассмотренных текстов точность работы компьютерной сегментации через идентификацию составила более 98%. Столь высокую результативность описанных правил мы можем рассматривать как косвенное (в силу специфичности исходного материала), но убедительное подтверждение «работоспособности» алгоритма, основывающегося на основных положениях модели когорты.