Статистическая погрешность результатов и культура представления данных в маркетинге

Статья
комментарий

Проблема качества маркетинговых исследований стоит перед разработчиками рекламных стратегий достаточно остро и, как правило, сводится к соответствию получаемых в результате данных реальному положению дел. Однако мало кто задумывается над тем, что те цифры, на основе которых будут приниматься судьбоносные для рекламной кампании решения, не являются величинами абсолютными, и чтобы действительно ориентироваться в ситуации, опираясь на исследования, необходимо учитывать погрешность измерений. Предлагаемая автором методика позволяет подойти к статистике со всей серьезностью и научиться за цифрами видеть то, что недоступно невооруженному взгляду неспециалиста.

Маркетинг для России — сравнительно новая прикладная наука. Здесь, в основном, работают представители «смежных» профессий — социологи, психологи, экономисты и т.д.

Смешение профессиональных культур тормозит развитие собственной культуры проведения маркетинговых исследований (в дальнейшем — МИ) и представления их результатов, на основании которых заказчик исследований должен принимать решения и вести свой бизнес.

Рассмотрим частный вопрос о статистической погрешности количественных МИ и о том, как в связи с наличием данной погрешности целесообразно представлять результаты.

Проводя количественные (или статистические) измерения различных параметров рынка, исследователь получает конкретные результаты, выраженные в цифрах, — проценты, рейтинги и т.д. Данные цифры, оформленные в виде системы таблиц, графиков и т.п., сопровожденные выводами и рекомендациями, представляются заказчику.

Здесь есть одна проблема, скорее всего не известная заказчику, но о которой исследователь должен знать.

Все представленные в отчете цифры — есть только оценка измеряемого параметра, сделанная исследователем на основании проведенных статистических измерений. Оценка в принципе не точна, хотя бы потому, что имеет т.н. «статистическую погрешность» (в принципе данные могут иметь иные виды погрешности, например, связанные с ошибками исследователя при проектировании и организации самого процесса исследования, неправильной постановки задачи и т.д. Мы их здесь не рассматриваем).

Иными словами, предоставленные цифры имеют свои %.

Естественно, чем больше величины выборки статистических измерений, тем меньше статистическая погрешность.

Исследователь является профессионалом, поэтому, скорее всего, знает о величине статистической погрешности в представленных заказчику данных. Исследователь в отчете указывает, как правило, величину статистической погрешности.

Но заказчик может и не знать, что означает указанная исследователем в отчете статистическая погрешность, а главное, что с этой погрешностью делать, как ее учитывать при проектировании своей дальнейшей деятельности.

Ниже рассмотрим два основных вопроса:

Статистические погрешности измерений. (В основном, для профессионалов).
Как корректно представлять заказчику количественные данные при имеющейся статистической погрешности.

Пример. Фрагмент отчета по статистике заболеваемости населения Москвы.

Вопрос: «Вы болели гриппом последнее время?»

При проведении выборочного опроса ответы распределились следующим образом (в абсолютных цифрах):

Болели гриппом в течение последних ...	Частота (чел.)
2 недель	43
1 месяца	79
2 месяцев	113
3 месяцев	86
полугода	80
Всего	401

Величина статистических погрешностей

Допустим, мы хотим оценить некий параметр р рынка. С этой целью мы проводим статистическое измерение на выборке n.

Отметим, что число р есть абсолютно точное значение искомого параметра, которое нам неизвестно и не может быть известно в принципе, но которое нам надо оценить методом статистических измерений.

Доверительная вероятность и соответствующий ей интервал

Проводя статистическое измерение, мы можем получить оценку р* нашего искомого параметра р.

Наша оценка р* будет находиться где-то вблизи истинного значения параметра р, и, скорее всего, не будет точно равна р.

Распределение возможных значений оценок значения искомого параметра f(p*), подчиняется, в общем случае, нормальному (Гауссовому) закону — рис.1.

рис.1.

Здесь =3,14159...

— т.н. среднеквадратичное отклонение (СКО), величина, зависимая от объема выборки n: чем больше выборка, тем меньше отклонение.

Площадь, ограниченная гауссовой кривой и горизонтальной осью, равна 1.

Рассмотрим процент А% площади под кривой вблизи р в границах от р-х до р+х. (рис. 2)

рис.2.

С вероятностью А% полученная оценка р* будет находиться в границах от р-х до р+х.

Вероятность А% называют доверительной вероятностью. Говорят: с вероятностью А% наша оценка р* будет находиться в интервале между нижней границей р-х и верхней границей р+х вблизи р.

Или сокращенно — «р%х».

Принята стандартная величина доверительной вероятности А=95%, в этом случае наш интервал будет иметь границы %2 вблизи р. Или — р%2 (рис.3).

рис.3.

Правдоподобие

В предыдущем разделе вопрос стоял о том, где вблизи истинного значения параметра р может находиться наша оценка р*.

В жизни — наоборот. Мы не знаем истинного значения р, но, проведя статистические измерения, находим оценку р*.

Вопрос о погрешности нашей оценки ставится следующим образом: каков тот интервал вблизи р*, где может находиться (с вероятностью А%) истинное значение параметра р?

Иными словами, р% сколько? при данной выборке n.

Рассмотрим этот вопрос.

Итак, мы имеем оценку р*. Мы вправе выдвинуть гипотезу: «истинное значение параметра р есть р1 (рис. 4)», либо гипотезу: «истинное значение параметра р есть р2», либо «истинное значение параметра р есть р3», см рис.4.

рис.4.

ПРАВДОПОДОБИЕ гипотезы относительно истинного значения параметра р равно условной вероятности того, что мы получим оценку р*, если на самом деле истинное значение параметра равно р.

Иными словами, мы предполагаем, что знаем параметр р (условие). И мы смотрим, какова условная вероятность появления оценки р*:

W(p* | p)

Реально значение р нам не известно. Мы предполагаем (выдвигаем гипотезу), что, допустим, оно равно р1. Напомню, мы, проведя статистические измерения, получили число р* в качестве оценки параметра р.

Условная вероятность при гипотетическом значении р1 появления нашей оценки р*, иными словами, правдоподобие гипотезы р1, иными словами, W(p* | p), есть — рис.5.

рис. 5.

Строго говоря, вероятность есть площадь под кривой рис.5., поэтому вероятность получения данной конкретной оценки р* при гипотезе р1 есть бесконечно малое число.

Но это число все-таки меньше, чем вероятность получения нашей оценки р*, если мы примем гипотезу р3 = р*. (рис.6)

рис.6.

Удобно использовать отношение правдоподобий.

При условии, что в числителе и в знаменателе дроби бесконечно малые величины, отношение правдоподобий есть конкретная ненулевая величина, что делает отношение правдоподобий весьма практичным для решения многих задач.

В нашем случае наиболее правдоподобной будет гипотеза, что истинное значение параметра р равно нашей оценке р*. Однако весьма правдоподобной выглядит гипотеза, что истинное, но неизвестное нам, значение параметра р чуть больше, либо чуть меньше чем р*.

Нам необходимо:

Найти численное значение границы отношения правдоподобий. Если отношение правдоподобий для данной гипотезы меньше этого числа, гипотеза считается достаточно правдоподобной, если больше — малоправдоподобной.
На основании отношения правдоподобия определить интервал статистической погрешности оценки р* при данной выборке .
Определим граничные значения отношения правдоподобия для стандартной доверительной вероятности А=95%. (рис.2)

Граничному отношению правдоподобия соответствуют границы интервала вблизи р*, (назовем их ргр), верхняя и нижняя, которые и определяют интервал статистической точности нашей оценки р*.

Граничное отношение правдоподобий

рис.7.

Правдоподобие при ргр: W(p* | p=ргр)

Граничное отношение правдоподобий (для А=95%):

Итак, для интервала, в пределах которого, вблизи р*, в условиях доверительной вероятности А=95%, может находиться истинное значение параметра р, иными словами — для интервала погрешности статистических измерений характерно следующее правило:
На границах данного интервала отношение правдоподобий равно 7,4; внутри интервала — меньше, вне — больше, чем 7,4.

Вычисление интервалов погрешности

Объем выборки, напомню, n.

Предположим, r из них подходят под условия параметра.

Оценка р*:

(1)

Если исследуемый параметр р достаточно большая величина, т.е. в пределах 5-95%, возможные значения оценок р* подчиняются биномиальному закону. Границы интервала статистической погрешности находим из уравнения:

сокращаем:

Решая уравнение численным методом, вычисляем границы интервалов статистической погрешности для каждого значения р*, лежащего в пределах 5-95%, для различных значений n.

Если исследуемый параметр р мал, лежит в пределах до 5%, то применим закон Пуассона:

сокращаем:

Результаты расчетов верхней и нижней границ интервалов статистической погрешности для различных значений оценок р* при разных выборках n представлены ниже в виде графиков на рис. 8.

Основные комментарии

1. На графиках представлен интервал возможных значений р* от 0% до 50% для экономии места. Графики симметричны относительно линии 50%.

Погрешность оценки (верхняя и нижняя границы интервалов), скажем, для р*=60% равна погрешности (соответственно, нижней и верхней границ интервалов) оценки р*=40%.

2.Чем меньше оценка р*, тем меньше погрешность статистических измерений. Максимальная погрешность измерений будет при оценках в районе 50%. При дальнейшем увеличении значения оценки погрешность статистических измерений снова уменьшается.

3. Интервал погрешности несимметричен. Например, при объеме выборки n=100 и получившейся оценке параметра р*=30% интервал погрешности будет от 30—8% до 30+9%.

Пример. (продолжение)

В таблице, приведенной ранее, добавим столбцы, в которых:

Результаты расчета относительной частоты приводимых ответов, выраженных в % по формуле (1), округленные до первой цифры после запятой.
Границы интервала погрешности для каждой цифры (на основании графиков рис.8.).
Величины интервала погрешности.

Болели гриппом в течение последних ...	Частота (чел.)	Относительная частота (%)	Границы интервала погрешности (%)	Величина интервала погрешности (%)
2 недель	43	10,7	от 8,2 до 13,7	5,5 (или +-2,3%)
1 месяца	79	19,7	от 15,7 до 23,9	8,2 (или +-4,1%)
2 месяцев	113	28,2	от 23,4 до 33,2	9,8 (или +-4,6%)
3 месяцев	86	21,4	от 18,4 до 25,6	8,2 (или +-4,1%)
полугода	80	20,0	от 16,0 до 24,2	8,2 (или +-4,1%)
Всего	401	100,0

Отметим следующие факты:

Статистическая погрешность указанных измерений (с выборкой 401) такова, что может однозначно выявить различия между частотами ответов «2 недели», «1 месяц» и «2 месяца». Границы интервалов погрешности для указанных ответов не пересекаются.
Статистическая погрешность измерений не может однозначно определить различий в частоте ответов «1 месяц», «3 месяца» и «полгода».

Иными словами, на основании представленных данных, можно сделать вывод что «тех, кто болел гриппом в последние 3 месяца больше, чем тех, кто болел гриппом в последний 1 месяц». Но этот вывод будет недостоверен.

Погрешность измерений и представление результатов

На практике часто случается, что объем выборки — не круглое число, при вычислении оценки параметра р* по формуле:

вполне может оказаться, что оценка р* будет не слишком «удобна»:

например:

n = 324
r = 103
р* = 31,790123... %

Как корректно округлить результат?

Рассмотрим, как задачу округления результатов решают инженеры.

Допустим, при измерении некого напряжения в некой сети, имеющийся вольтметр показал результат: 36,3 В

Однако любой прибор несовершенен, т.е. его показания неточны, имеют погрешности. Величина погрешности прибора обычно указывается в его паспорте и на панели.

Если наш вольтметр имеет погрешность +-1 В, то в протокол измерений инженер записывает цифру: 36 В

Таким образом, инженер округляет показания прибора до ближайшей 1, в соответствии с паспортной погрешностью прибора.

Иными словами, в протокол измерений записывается результат, округленный до последней достоверной цифры.

Погрешность прибора +-1 В, следовательно, десятки в цифре 36,3 достоверны, единицы — достоверны, а десятые доли вольта — недостоверны. Погрешность прибора не позволяет измерять десятые доли.

Поэтому десятые доли округляются до ближайшей 1 — в соответствии с арифметическими правилами округления.

Если бы вольтметр имел погрешность измерений +-0,5 В, то, получив результат 36,3 В, в протокол измерений мы должны занести 36,5 В.

Представлять в протоколе измерений только достоверные цифры — так понимается корректность работы с количественными данными любого типа.

Наш «прибор» — количественные статистические измерения. Погрешность нашего прибора зависит от объема выборки — см. рис. 8.

Профессиональная культура требует, чтобы в отчете представлялись только достоверные результаты:

Пример. (Продолжение)

Окончательный вид таблицы в отчете, с представлением математически корректных результатов:

Болели гриппом в течение последних ...	Частота (чел.)	Относительная частота (%)	Величина интервала погрешности (%)
2 недель	43	10	+-2,3%
1 месяца	79	20	+-4,1%
2 месяцев	113	30	+-4,6%
3 месяцев	86	20	+-4,1%
полугода	80	20	+-4,1%
Всего	401	100

Внимание! При округлении результатов следует иметь в виду: может получиться так, что сумма всех цифр не будет равна 100,0% (последняя строка в таблице).

Группа выводов 1

При объеме выборки от 80 до 200 математически корректно округлять результаты статистических измерений до одного из следующих значений:
0%, 5%, 10%, 20% .... 80%, 90%, 95%, 100%
При объеме выборки 300-700 на участке оценок р* от 10% до 90% корректно округлять до ближайших 5%. На участках 0—10% и 90—100% до ближайших 3%.
При объеме выборки 800-1500 на участках 10—90% округлять до ближайших 3%, на участках 0—10%, 90-100% — до ближайших 2%.
При объеме выборки 2000-4000 на участке 10—90% — до ближайших 2%, на участке 0—10% и 90—100% — до ближайшего 1%.
Только при объеме выборки свыше 5000 можно позволить на 10—90% округлять до 1%, на участках 0—10% и 90—100% — до ближайших 0,5%.

Группа выводов 2

Если при проведении количественных измерений вас удовлетворяет точность +-10%, пользуйтесь объемом выборки 100: увеличение выборки вдвое ничего принципиально нового не принесет, кроме, разве что, увеличения бюджета.
Аналогично и для требуемой точности +-5% вполне достаточно выборки около 350. Двукратное увеличение выборки не принесет существенных результатов.
Для проведения прецизионных (особо точных) статистических измерений — с точностью до 0,1% — требуется выборка не менее 15-20 тыс.
Если исследователь в отчете о количественных статистических измерениях указывает цифры с точностью до десятых долей %, и на основании десятых долей % делает некие выводы, то, скорее всего, он фальсифицирует их.

Представление математически корректных данных в отчете не избавляет от необходимости отдельно указывать статистическую погрешность проведенных статистических измерений.

Литература:

Е.С. Вентцель. Теория вероятностей. Москва, 1962 г.
В.С. Пугачев. Теория случайных функций и ее применения к задачам автоматического управления. Москва, 1960.
Bierman H.J., Bonini C.P., Hausman W.H. Quantitative Analysis for Business Decisions. Irvin, 1991.
Bowen E.K., Starr M.K., Basic Statistics for Business and Economics. McGraw-Hill, 1989.

Андрей Селин

Комментарий

Новое сообщение

Статья
комментарий

Авторизация