×
Traktatov.net » Аналитическая культура. От сбора данных до бизнес-результатов » Читать онлайн
Страница 57 из 163 Настройки

Разведочный анализ позволяет опровергнуть или подтвердить наши предположения относительно данных. Поэтому, когда в главе 2 шла речь о качестве данных, я рекомендовал использовать команду pairs() в среде R. Часто у нас сформированы обоснованные ожидания, что может быть не так с качеством данных, в отличие от ожиданий, какими должны быть достоверные данные.

По мере того как мы набираемся опыта и знаний в профессиональной области, у нас развивается интуитивное понимание, какие факторы и возможные отношения могут быть задействованы. Разведочный анализ, с его широким набором способов рассмотреть данные и их взаимоотношения, предлагает набор «луп» для изучения системы.

Это, в свою очередь, помогает специалисту по анализу данных выдвинуть новые гипотезы относительно того, что может произойти, если вы понимаете, какие переменные находятся под вашим контролем и какими рычагами вы можете воспользоваться для движения показателей, например выручки или конверсии, в нужном направлении. Кроме того, разведочный анализ способен показать пробелы в наших знаниях и определить, что можно сделать для их ликвидации.

Для одномерных непрерывных (действительные числа) или дискретных данных (целые числа) обычно строят диаграмму «стебель-листья» (рис. 5.5), гистограммы (рис. 5.6) и диаграммы размаха, или коробчатые диаграммы (рис. 5.7).


Рис. 5.5. Диаграмма «стебель-листья»


Рис. 5.6. Гистограмма


Рис. 5.7. Коробчатая диаграмма


Если гистограмма строится в таком масштабе, что ее площадь равна 1, это функция плотности распределения вероятностей.

Еще один полезный способ представить те же самые данные — составить интегральную функцию распределения.

Это может выделить интересные точки распределения, включая основные опорные точки.

На рис. 5.8, 5.9, 5.10 представлены основные графики для одномерных категориальных (качественных) переменных.


Рис. 5.8. Круговая диаграмма


Рис. 5.9. Столбиковая диаграмма


Рис. 5.10. Диаграмма Парето


Для визуализации двух переменных можно воспользоваться разными типами графиков.



(См. также рис. 7.5.)

Есть целый набор графиков для одновременного изучения трех переменных. Некоторые из них более общие и привычные (график поверхности (surface), пузырьковая диаграмма (bubble plots), 3D-диаграмма рассеивания (3D scatter)), а некоторые применяются для особых целей (см. the D3 gallery[84]).

В случае, когда одна из переменных — время (например, годы) или категориальная переменная, также можно использовать подход небольших множеств (small multiples), при котором создается решетка из одномерных или двумерных графиков (рис. 5.11).


Рис. 5.11. Пример маленьких множеств

Источник: https://en.wikipedia.org/wiki/Small_multiple


Не ограничивайтесь использованием одного или двух типов диаграмм. Каждый из этих типов диаграмм выполняет свою задачу. Изучите их преимущества и недостатки и применяйте те из них, которые лучше всего отражают интересные сигналы, тренды или образцы. (Мы еще вернемся к некоторым из этих аспектов в главе 7.)


Там, где возможно, пользуйтесь командами, например pairs(), при автоматическом создании графиков и диаграмм для различных комбинаций переменных, которые вы можете быстро просмотреть в поисках интересных деталей или странностей, заслуживающих дополнительного внимания.