Аналитическая культура. От сбора данных до бизнес-результатов бесплатно читать онлайн

Анна Краснова

Как же захватывающе читать "Конкур со шпагой"! Уникальная игра противоречивых персонажей, словно мозаика, складывается в удивительный сюжет, который держит в напряжении до последней страницы. Каждая деталь, от загадочной вдовы до игривого, но ненадеж...

Перейти

Елена Смирнова

Книга "Курск" заставляет задуматься о важности человеческих жизней и глубине человеческой драмы. Через призму профессии журналиста мы видим, как так часто мы оказываемся вплетены в события, которые бросают вызов нашим взглядам на мир. Каждый персонаж...

Перейти

Мирослава

Книга «Двойной язык» вдохновляет на глубокие размышления о нашем месте в мире и о том, как наши личные опыты переплетаются с историей и культурой. Она побуждает нас осознать, что каждый момент нашей жизни — это не просто последовательность событий, а...

Перейти

Александр П.

Меня переполняет радость от знакомства с "Королем в желтом"! Это произведение – настоящий шедевр ужасов и мистики, в котором каждая страница завораживает и погружает в мир туманных настроений и зловещих интриг. Атмосфера так незабываема, что я чувств...

Перейти

Екатерина Смирнова

Книга "Двенадцать подвигов Рабин Гута" действительно станет отличным выбором для уютного вечера! Смешение мифологии, юмора и захватывающих приключений подарит незабываемые эмоции и погрузит вас в яркий и комичный мир, который позволяет расслабиться и...

Перейти

Анастасия

Книга "Квест-0. Tutorial" предлагает невероятную возможность взглянуть на жизнь под новым углом. Через динамичные команды и их уникальные подходы к решению проблем, она подчеркивает важность различных точек зрения и способов взаимодействия с миром. А...

Перейти

Людмила О.

Автор мастерски создает захватывающий сюжет и необычайно живую атмосферу, погружая читателя в криминальный мир Одессы с его динамичными интригами и колоритными персонажами. Каждая страница наполнена тщательной детализацией, которая делает каждый моме...

Перейти

Анна

Как же я рада, что открыла для себя это произведение! "Пионер Советского Союза" затрагивает настолько важные и глубокие темы, что не оставляет равнодушным. История о борьбе за свободу и дружбу, о противостоянии жестокой реальности и жестоким обстояте...

Перейти

Алексей Иванов

Книга "Литерный поезд генералиссимуса" поражает своей глубиной и мастерским созданием атмосферного сюжета. Автор великолепно погружает нас в мир войны, где на первый план выходят не только масштабные события, но и человечность героев, их страхи и над...

Перейти

Алексей П.

Хочу порекомендовать книгу 'ЗАДАНИЯ ПО КУРСУ ЧЕРЧЕНИЯ' всем, кто ищет вдохновения и новых идей в машиностроительном черчении! Это пособие стало для меня настоящей находкой. Оно не только обучает основам, но и развивает навыки критического мышления че...

Перейти

Traktatov.net » Аналитическая культура. От сбора данных до бизнес-результатов » Читать онлайн

Страница 20 из 163 Настройки

Шрифт
Размер
Поля
Межстрочный интервал Сбросить настройки

Два важных навыка, которые должны развивать в себе аналитики, — прогнозирование возможных результатов и способность предварительно оценивать данные[29]. Я ошибся относительно значений артериального давления, так как оценивал их с точки зрения нормы для обычных здоровых людей. Тем не менее я узнал нечто новое для себя, скорректировал свои ожидания и убедился, что данные, скорее всего, верные.

Это наглядный пример того, что изначально вы, возможно, будете ставить под сомнение все источники данных. Я всегда исхожу из базового предположения, что данные могут быть ошибочными, и моя работа в том, чтобы выяснить источник проблемы. Я не впадаю в крайности, но непременно провожу определенную работу (например, пользуюсь функциями summary(), pairs() и boxplot() в R, чтобы убедиться, что в данных нет очевидных ошибок. При работе с базами данных NHANES мы с коллегами создали гистограммы всех показателей, чтобы отследить случайные образцы, бимодальное распределение и другие резко выделяющиеся значения. Подсчет числа записей на конкретную дату может послужить еще одним простым тестом. Подобный разведочный анализ данных может быть простым, быстрым и чрезвычайно ценным.

ПРОПУЩЕННЫЕ ДАННЫЕ

Одна из наиболее существенных проблем — неполные или пропущенные данные (рис. 2.3C). Эта ошибка может быть двух видов: пропуск данных в записи или пропуск всей записи.

ЗАПОЛНЯЕМ ПРОПУСКИ: МЕТОД ВОССТАНОВЛЕНИЯ

Существуют статистические подходы, которые можно применить для восстановления пропущенных данных или подстановки на их место наиболее вероятных значений (мне нравятся инструмент Amelia package от R[30] и сервис подстановки Google[31]). Их успех зависит от ряда факторов, в том числе от размера выборки, количества и характера пропущенных данных, типа переменных (являются ли они однозначными, непрерывными, дискретными и так далее), а также зашумленности данных. Один из наиболее простых подходов заключается в том, чтобы заполнить пропущенные значения средним значением этой переменной. В более сложных подходах применяются вариации EM-алгоритма[32]. Рекомендуемые к прочтению книги по этой теме: Missing Data (автор — П. Эллисон) и Statistical Analysis with Missing Data (авторы — Р. Литтл и Д. Рубин)[33]. Это эффективный инструмент, но в зависимости от типа данных сделанные с его помощью прогнозы в некоторых случаях могут быть неверными.

Зачем тогда рисковать и использовать этот подход? Во многих случаях, особенно в медицине и социальных науках, сбор данных может быть очень дорогим, к тому же возможность для сбора может быть только одна. Например, если вам нужно узнать значение артериального давления пациента на третий день клинического исследования, вы не можете вернуться в этот день, чтобы еще раз его измерить. Основная проблема заключается в том парадоксе, что чем меньше размер выборки, тем более ценна каждая запись. При этом чем меньше информации, с которой приходится работать алгоритму по восстановлению данных, тем менее точным получится результат.

Какое-то из пропущенных значений в записи способно сделать бесполезной всю эту запись. Это происходит в случае отсутствия ключевой информации, то есть показателя, определяющего тему записи (например, идентификационные данные клиента или заказа) и необходимого для объединения с другими данными. Кроме того, это может иметь место в случае, когда анализ строился на пропущенных данных. Например, если вы решили проанализировать продажи по почтовому индексу, а в какой-то записи индекс отсутствует, очевидно, что вы эту запись использовать не сможете. Если вам повезло и пропущенные данные не требуются для анализа, то выборка может и не сократиться.

Вперед

1 ... 17 18 19 20 21 22 23 24 ... 163