Аналитическая культура. От сбора данных до бизнес-результатов бесплатно читать онлайн

Александр К.

Прочитав "Под крылом - Ленинград", я был глубоко потрясён историей мужества и героизма советских летчиков! Эта книга - не просто собрание фактов, а живое дыхание истории, которое переносит нас в самые тяжелые и славные мгновения войны. Каждый отрывок...

Перейти

Елизавета

Книга "Ладошка" вызывает невероятные эмоции и заставляет сердце замирать от нежности и горечи. Через простые, но глубокие отношения между Антоном и Владом, автор мастерски передает весь спектр юных чувств - от влюбленности до разочарования. Читаешь, ...

Перейти

Анна Л.

Книга "Рецепт дорогого удовольствия" поражает своей глубиной и мастерством в создании сюжета. Автор виртуозно рисует атмосферу внутренней борьбы главной героини Глаши, заставляя читателя погружаться в её переживания и конфликты. Каждый персонаж и их ...

Перейти

Александр Смирнов

Хочу выразить сердечную благодарность автору книги "Секреты любви. Даосская практика для женщин и мужчин" за столь увлекательное и познавательное произведение. Мне особенно понравилось, как автор раскрывает древние даосские практики и их значение для...

Перейти

Анастасия

Ваша способность создавать такие глубокие и многослойные сюжеты просто восхищает! В "Чужой крови" вы мастерски передали всю атмосферу тяжелых времен и личных трагедий, оставив читателю ощущение безысходности и надежды одновременно. Каждая сцена напол...

Перейти

Алексей Иванов

Книга "Таежный снайпер" удивляет глубиной мысли и эмоциональным воздействием. В ней мастерски переплетаются детали человеческой жизни, сложные моральные выборы и напряженные ситуации, заставляющие читателя вникать в переживания героев. Особенно впеча...

Перейти

Александр Петров

Ух ты! Как же меня поразил этот отрывок из книги "Социальная психология"! Автор виртуозно связывает культурные контексты с гендерными различиями и поведением людей, раскрывая при этом удивительную глубину человеческой природы. Браво за неподражаемое ...

Перейти

Александр

Хочу выразить большую благодарность автору за захватывающую и напряженную историю в "Песчаной горячке". Книга мастерски передает атмосферу безысходности и тревоги, охватывающей персонажей, которые борются с суровыми условиями пустыни. Диалоги Боба и ...

Перейти

Анастасия

Не могу сдержать своих эмоций после прочтения "Надежда умирает последней"! Этот роман стал для меня настоящей находкой. История о Вилли и Гае, их борьбе за истину и противостоянии с обстоятельствами завораживает и заставляет задуматься о том, какие в...

Перейти

Анна Смирнова

Автор книги "Лабиринт смерти" проделал невероятную работу по созданию не только захватывающего сюжета, но и потрясающей атмосферы, полной напряжения и непредсказуемости. Каждое взаимодействие персонажей наполнено глубинным смыслом и противоречиями, ч...

Перейти

Traktatov.net » Аналитическая культура. От сбора данных до бизнес-результатов » Читать онлайн

Страница 158 из 163 Настройки

Шрифт
Размер
Поля
Межстрочный интервал Сбросить настройки

) — это вероятность слова w, то, имея некоторый набор данных, можно вычислить, например:

Pr(che,apdeals,andstuff) = Pr(che). Pr(apdeals). Pr(andstuff).

…

Pr(cheap,deals,and,stuff) = Pr(cheap). Pr(deals). Pr(and).

Pr(stuff).

Конечно, также можно использовать n-граммы (например, биграммы): Pr("cheap deals") × Pr("and stuff").

Второй пример, который привел Норвиг, касался проверки орфографии. В этом случае можно взять слово, содержащее ошибку, и вычислить вероятность возможных вариантов, чтобы предложить наиболее вероятную форму.

В обоих случаях требуется набор данных, содержащий как характерные, так и нехарактерные слова и фразы. Кроме того, необходим показатель встречаемости этих фраз для вычисления относительной частотности. Чем больше и понятнее будет набор данных, тем лучше. Думаю, здесь наблюдаются два статистических явления.

• Чем больше корпус данных, тем выше качество оценки относительной частотности. Это закон больших чисел[280].

• Чем больше корпус данных, тем выше вероятность попадания в него нехарактерных фраз («длинного хвоста»). Это неограниченный эффект. Чем больше индексируется интернет, тем больше новых фраз будет появляться. Проблема осложняется тем, что распределение слов в английском языке — это степенной закон. (См. Zipf, G. The Psycho-Biology of Language. Houghton Mifflin, Boston, MA, 1935.) Это означает наличие особенно длинного хвоста. Следовательно, особенно крупные выборки должны содержать эти редкие фразы.

Проблемы оценки одномерного распределения

К третьему типу относятся проблемы оценки одномерного распределения. Недавно я слушал лекцию[281] Питера Скомороха из компании LinkedIn[282]. Он показал распределение вероятности названия должности сотрудника, занимающегося разработкой программного обеспечения, в зависимости от числа месяцев, прошедших после его выпуска из университета. Согласно данным, распределения «Sr Software engineer» и «senior software engineer» (старший инженер-разработчик программного обеспечения) почти идентичны, что можно было ожидать, учитывая их синонимичность. Аналогичная картина и с распределениями «CTO» и «Chief Technology Officer». Это интересный способ определения синонимов и исключения повторов, вместо того чтобы поддерживать длинный основной список акронимов и аббревиатур. Это возможно только благодаря объему данных: при нем распределение, которое делают авторы, — надежное и предположительно близкое к истинному лежащему в основе распределению населения.

Источник: Питер Скоморох. Воспроизводится с разрешения

Проблемы многофакторности

Четвертый тип проблем — проблемы многофакторности, или корреляционные, при которых мы стремимся оценить взаимоотношения между переменными. Это может быть оценка взаимоотношений y = f(x) или, возможно, оценка совместной плотности распределения многих переменных. Это можно использовать для разрешения лексической многозначности (например, когда в документе встречается слово pike, обозначает ли оно «щуку» или «пику») или для составления «справочника» взаимосвязанных характеристик или концепций для конкретной лексической единицы (например, с понятием «компания» связаны такие понятия, как «генеральный директор», «главный офис», «ИНН» и так далее).

Вперед