Ложь, большая ложь и статистика

Оценить
(0 голоса)

Статистика может придавать ауру научной достоверности любому упражнению по определению размеров или эталонному тестированию. Но не дайте вашей собственной статистике ввести себя в заблуждение. Грань между тем, что заслуживает доверия, и тем, что только кажется заслуживающим доверия, может быть чрезвычайно топкой.

Никто не застрахован от обмана, и для того, чтобы иметь больше, чем вы когда-то желали, следует быть более внимательным во время накопления статистики! Именно по этой причине перед формированием выводов по результатам статистики, попробуем хорошенько разобраться в следующих факторах:

•             Какие первичные данные использовались для вычисления показателей, как эти показатели рассчитывались, что они означают. Могут ли, например, низкие значения средних времен отклика свидетельствовать об удовлетворении пользователей? Возможно это и не так, если времена отклика усреднялись между периодами, характеризующимися небольшой активностью с малыми временами отклика, и периодами высокой нагрузки, когда времена отклика увеличиваются до недопустимых уровней.

•             Все ли существенные факты были представлены. Изменения, внесенные в приложения, которые приводят к фантастическому улучшению производительности, например, могут выглядеть менее впечатляющими, если в процессе этих изменений требования к производительности ЦП экспоненциально упали. В частности, при мониторинге производительности или времен отклика всегда необходимо также регистрировать и затраты ресурсов ЦП па одну транзакцию.

•             Обоснованы ли любые представленные причинные связи. Предположим, можно было бы показать, что колебания тоннажа апельсинов, импортированных в Соединенное королевство из Австралии на протяжении пятилетнего периода, в точности совпадали с колебаниями уровня детской смертности в Канаде в течение того же самого периода. Немногие люди взялись бы обосновывать наличие причинной связи (то есть, отношения между причиной и действием) между этими двумя статистиками.

Но предположим, можно было бы показать, что по мере увеличения нагрузки на систему со стороны прикладной программы увеличиваются как времена отклика дисков, так и времена отклика транзакций. Мог бы показаться логичным вывод, что времена отклика транзакций являются результатом того, что диски становятся перегруженными, и тогда добавление дисков должно улучшить производительность обработки транзакций. Однако если времена отклика дисков увеличились из-за того, что шина на основной (объединительной) плате вошла в режим насыщения, то добавление большего количества дисков вообще не поможет. Основной причиной в рассматриваемом случае был бы некоторый третий фактор, и фактически не будет существовать никакой причинной связи между нагрузкой на диски и временами отклика транзакций.

Несколько лет назад один продавец персональных компьютеров уверенно утверждал, что сегмент сети Ethernet мог бы быть насыщен единственным персональным компьютером с 486-м процессором. Он оказался в неудобном положении, когда один из коллег продемонстрировал ему, что его инструмент мониторинга фактически измерял возможности сетевого драйвера этого персонального компьютера, а не сети Ethernet.

Политики и лоббисты являются непревзойденными мастерами в том, что касается манипулирования статистикой для достижения собственных целей, а особенно в тех вопросах, где люди воспринимают их статистические заявления в лучшем случае со скептицизмом. Но непреднамеренные ошибки со статистикой могут быть столь же разрушительными, как и циничное манипулирование фактами, поэтому всегда стоит задать вопросы, прежде чем вслепую делать заключения, основанные на статистических данных.

Объекты не всегда являются именно, тем чем они кажутся. Помните картинки "Найди отличия", которые все мы детально изучали в детстве? Это пример достаточно точного обнаружения несоответствий, когда заранее известно, что они там имеются; эта задача становится несравненно сложнее, если вы полагаете, что две картинки являются одинаковыми.

Сравнение методов
Противоречия интервалов
Противоречия накопления и представления данных
Законченная картина
Четкая картина

Добавить комментарий


Защитный код
Обновить