?

Log in

No account? Create an account

Кухня шута

Шуты не бывают веселыми... А еще они не бывают чьими-то.

Previous Entry Share Next Entry
(no subject)
man_of_motley
В разное время, разные люди и в разном контексте несколько раз приводили мне довод в стиле "это исследование не релевантно, потому что разница среднего значения измерения X между двумя группами меньше стандартного отклонения (поправка для борцов за чистоту русского языка - по русски, строго говоря, это называется среднеквадратическое отклонение)". Мне как бы в жизни пришлось немного позаниматься и самой статистикой и, что не менее важно, интерпретацией её результатов, поэтому такое возражение мне как минимум странно и напоминает мантры в наукополонническом стиле.

Не столько об математику, а больше об смысл...


Сразу оговорюсь что мы опускаем тут целую кучу важных вещей и предполагаем, что работа выполнена добросовестно – т.е. как минимум что объем измерений достаточно большой, что распределение действительно нормальное, что данные не фальсифицировались, не фильтровались и не подвергались предварительной обработке.

Математика наука абстрактная, и не всегда очевидно как именно применимая к реальности. Поэтому рассмотрим “на пальцах” что для нас означает нормальное распределение и стандартное отклонение.
Скажем на уровне личном. Есть маршруты А и Б чтобы добраться от дома до работы. Скажем среднее время маршрута А – это 50 минут, а маршрута Б – 55 минут. При этом стандартное отклонение – 10 минут.

Как раз ситуация когда разница между двумя группами меньше чем стандартное отклонение. Что означают эти цифры? Это означает что:

1) Если мы проедем каждым маршрутом бесконечно количество раз – то среднее время будет как указано – 50 минут и 55 минут соответственно.

2) Но каждая конкретная поездка может быть от 40 до 60 минут на маршруте А и от 45 до 65 минут на маршруте Б грубо говоря в 70% случаев. В 30% случаев разница может быть еще больше. [Да, я знаю поездка не совсем нормальное распределение, бо быстрее лимита скорости она быть не может, но зато может быть бесконечной в случае поломки, но для нашего примера наглядность для всех и каждого важнее этого допуска]

Попробуем ответить на два вопроса.

Вопрос 1. Стоим на остановке, подходит ДВА автобуса сразу – один маршрута А, другой маршрута Б. Какой из них доедет быстрее?

Ответ. Ответить исходя из имеющихся данных нельзя. Стандартное отклонение у обоих маршрутов меньше чем разница между ними. Поэтому Б может приехать быстрее чем А с достаточно высокой вероятностью.

Тут возражение которое нам приводят гуру статистики верное, да.

А теперь вопрос 2. Нам предложили оплатить поездки на одном и только одном маршруте со значительной скидкой и заранее, и нам надо выбрать маршрут А или маршрут Б. Какой из них следует выбрать?

Ответ: а вот тут уже более вариант А становится опять-таки статистически более привлекательным, ибо если мы посчитаем такой фактор как “скорость прибытия на потраченный рупь” на длительное время – то вариант А окажется тупо дешевле. Просто потому, что в среднем от таки приезжает на 5 минут быстрее за те же деньги.

Аналогичные задачи.

Есть модель автомобиля А и модель автомобиля Б. У модели А среднее количество поломок 1000 на миллион машин в год, у модели Б – 900 на миллион машин в год. Стандартное отклонение одинаковое, скажем 200 поломок на миллион, типы поломок, скорость и стоимость их ремонта одинаковы.

Вопрос 1. Стоит ли выбирать конкретный автомобиль модели А или Б?

Ответ. Статистика выше бесполезна – у КОНКРЕТНОГО автомобиля модели Б достаточно вероятно может оказаться надежность хуже чем КОНКРЕТНОГО автомобиля модели А.

Вопрос 2. На основе какой модели следует сформировать парк из 5000 автомобилей?

А вот тут статистика выше работает – конечно из модели Б, на таком количестве общий фонд для ремонта будет примерно на 10% ниже.

И так далее по тому же паттерну – есть лекарство А, и лекарство Б. И вопросы – каким лечить конкретно Васю Пупкина и какое одно рекомендовать к повсеместному использованию и так далее.


Это просто и понятно скажем любой здравомыслящий человек. Но почему тогда нам такое говорят?!

А всё потому что об этику...


А потому что тема, на которую ведутся споры не совсем загоняется в рамки строгих, скажем экономических, правил. Это та самая тема о том, одинаковы ли люди по признаку расы, пола и так далее.

Так откуда возникает это возражение там? А оно возникает из приема нечистоплотного ведения дискуссии, когда ответ на один вопрос выдается за другой. Внимание: это не означает автоматического обвинения в нечистоплотности всем использующим этот аргумент, люди могут просто повторять услышанный из авторитетного для них источника аргумент [например... wikipedia гыгыгы].

Когда мы говорим о людях в этом контексте – всегда надо четко понимать какой именно вопрос задается.

И если вопрос звучит как, скажем:

1) Умнее ли китаец Ху негра Мбамбвы?

2) Сильнее ли мужчина Шон женщины Сильвии?

НЕЛЬЗЯ приводить в ответ имеющуюся на данным момент статистику просто потому, что именно так – разница в измерениях между китайцами и неграми по уму, или между мужчинами и женщинами по силе действительно лежит в пределах стандартного отклонения! [как бы не было удивительно второе, но увы, в современно мире достаточно мужиков – дрищей, спасибо экономике сидения на жопе, чтобы обеспечить именно такую статистику]

Но при этом на вопросы

1) Если от ума сотрудников зависят страхуемые потери компании, у кого выше будет стоимость страховку – у компании из 5000 китайцев или 5000 негров.

2) Если нам надо сформировать 1000 танковых экипажей – кого следует брать заряжающим – мужчин или женщин.

Отвечать на основе статистики можно и нужно. А если статистику отбраcывать - то надо не менее честно отвечать себе на вопрос "за чей счет и какой ценой мы компенсируем риски, которые берем на себя выбирая статистически менее эффективное решение".

Люди, собственно, и спотыкаются на этом чисто этическом вопросе – но… ведь когда мы будем формировать 1000 экипажей или набирать в компании 5000 человек – то мы же будем рассматривать КАЖДОГО ИНДИВИДУАЛЬНО. И автоматически начинают пытаться применить статистику о группе на одного. Потому что каждая индивидуальность – это человек, не тварь дрожащая, а право имеет. А общество типа бохатое, не обломится заради социальной справедливости и вообще доброго, разумного, вечного.


  • 1

Методика - страшная вещь

Мне как-то попадался пример с переносом довольно подробно исследованного эффекта "врёт как очевидец" на историю Холокоста. Народ был ужасно шокирован. Исследователи на криминалистическом материале занервничали, что их результаты оказались такими нетолерантными.

Такая богатая тема и так мало каментов <:( В целом - очень интересно, надо взять на вооружение. Я уже давно считаю что чрезмерная этичность и институты жалости изничтожают человечество похлеще ядерной войны. Но при этом жестокая статистика и наука каким-то образом должна обтекать индивидуальности. И тут вопрос проведения границ и нейтральных вод в этом деле ставит меня в тупик(вернее не меня, а то как я бы преподнес это широким массам). Баланс в вечном поиске баланса...

  • 1