Актуальные проблемы современной лингвистики бесплатно читать онлайн

Инна Соловьева

Книга "Буек" просто великолепна! Это произведение не только удивительно увлекательно, но и полно вдохновения и жизненной мудрости. Герои, их переживания и преодоление трудностей на фоне трагедий придают книге невероятную глубину. Я рекомендую её всем...

Перейти

Анастасия

Хочу выразить искреннюю благодарность автору за такую увлекательную и захватывающую историю в "Госте из Верхнего озера"! Чтение было настоящим приключением, которое погружает в мир загадок и таинственных существ. Переплетение дружбы, смелости и непре...

Перейти

Анна Левина

Как приятно было познакомиться с «Браки совершаются на небесах»! Эта книга просто завораживает своей глубиной и исторической правдой. Мне особенно понравилось, как автор переплел судьбы героев, их внутренние конфликты и политические интриги. Чувство ...

Перейти

Анна

Книга "Пирамиды - космодром инопланетян" обещает стать замечательным выбором для уютного вечера! Загадки древних пирамид, захватывающие теории о инопланетянах и духовном развитии - это точно увлечет и заставит задуматься. Не упустите возможность окун...

Перейти

Анастасия

Книга "На берегу Рио-Пьедра села я и заплакала" пронизана глубокими размышлениями о любви, вере и женском начале. В каждом диалоге, в каждом внутреннем конфликте героини чувствуется невероятная эмоциональная сила и искренность. Автор мастерски переда...

Перейти

Лариса Иванова

Как же впечатляюща и многогранна проза Чехова в томе 3 его сочинений! Каждый рассказ пронизан остроумным юмором и проницательной сатирой, бесстрашно высмеивающей человеческие слабости и пороки. Не могу не восхититься разнообразием персонажей: от неза...

Перейти

Александр П.

Книга "Брат мой Каин" — это настоящее литературное произведение, в котором автор мастерски создает глубокую атмосферу и увлекательный сюжет. Каждый персонаж наполнен сложными эмоциями, а их взаимодействие заставляет читателя не отрываться от страницы...

Перейти

Анна Смирнова

Хочу выразить огромную благодарность автору за такую увлекательную и подробную историю о здоровом питании! Книга не только информативна, но и вдохновляет на изменения в своем рационе. Особенно приятно читать о практических рекомендациях и рецептах, к...

Перейти

Елена Серова

Книга 'Штурм и буря' потрясает своим эмоциональным насыщением. Каждый поворот событий заставляет сердце замирать от страха и волнения за судьбу главных героев. Я чувствую их страх, надежду и преодоление на каждом шагу. Напряженные диалоги, раскрывшие...

Перейти

Анастасия К.

Книга "Дорогами миров" поражает своим уникальным сюжетом и потрясающей атмосферой! Автор великолепно создает множество сложных мироощущений, позволяя читателю не только следить за развитием событий, но и переживать их вместе с персонажами. Каждая сце...

Перейти

Traktatov.net » Актуальные проблемы современной лингвистики » Читать онлайн

Страница 225 из 236 Настройки

Шрифт
Размер
Поля
Межстрочный интервал Сбросить настройки

Но все это относилось к идентификации изолированных слов. Мы же попытались использовать ту же идею при «работе» с непрерывной последовательностью слов, не разделенных какими бы то ни было метками сегментации, т.е. возможности того же алгоритма оценивались применительно к распознаванию слитной речи, которая характеризуется как раз отсутствием границ между словами, образующими высказывание (синтагму). Одна из вытекающих при этом сложных проблем заключается в том, что единый процесс идентификации-сегментации предполагает нахождение правой границы слова. В нашей модели анализируемый текст считывается из файла слово за словом и записывается в строку без пробелов и знаков препинания. Начальная часть строки длиной в 7 – 9 открытых слогов представляет собой буфер, с содержимым которого работает в дальнейшем программа. Объем буфера выбран на основании имеющихся данных об объеме оперативной (кратковременной) памяти человека (7+2 слога). На этом этапе алгоритм работы программы, скорее всего, не соответствует предполагаемому алгоритму работы системы распознавания речи человеком и выбран таковым только из условия удобства программной реализации процесса.

По первому символу строки-буфера начинается процесс образования текущей когорты. Для орфографической записи при этом применяются следующие правила: (1) если первая буква не является допустимым однобуквенным словом, не содержащим ударного гласного (союзом, предлогом), то происходит только определение объема когорты, сама же когорта как набор слов не создается (это чисто программистский ход, экономящий время); если первая буква является допустимым однобуквенным словом, то из соответствующей словарной статьи в промежуточный буфер записывается слово-кандидат, а из остальных словарных статей выбираются данные об их объеме для сбора статистики; (2) заполнение когорты производится по двум первым буквам буфера-строки (или только по первой, когда это ударный гласный, поскольку по чисто техническим причинам ударные гласные представлены в текстах и в словарных статьях двухсимвольными сочетаниями: собственно гласный и знак ударения «+»; равным образом согласные тоже могут иметь двухсимвольные соответствия с учетом «ъ» или «ь»); (3) буфер слов-кандидатов заполняется до тех пор, пока N первых символов в исходном буфере совпадают хотя бы с одним словом в когорте и прекращается, когда добавление еще одного элемента создает комбинацию, не представленную в словаре; вслед за этим начинается анализ слов-кандидатов.

Правила работы с транскрипционной записью полностью аналогичны приведенным выше.

В данный момент при выборе окончательного варианта из всех слов-кандидатов принято самое простое правило: окончательным считается слово, последним занесенное в список, – при условии, что сохраняется возможность идентификации через словарь «оставшейся» цепочки. Это вполне соответствует правилу отбора, сформулированному в теории когорты: выбирается только слово, полностью и без остатка совпадающее с входной последовательностью символов.

На материале как беспробельной орфографической, так и транскрипционной записи рассмотренных текстов точность работы компьютерной сегментации через идентификацию составила более 98%. Столь высокую результативность описанных правил мы можем рассматривать как косвенное (в силу специфичности исходного материала), но убедительное подтверждение «работоспособности» алгоритма, основывающегося на основных положениях модели когорты.

Вперед