Зияющие высоты рейтингов: проблемы надежности и достоверности измерений телеаудитории

Статья
комментарий

Данной статьей я хотел бы привлечь внимание читателей к проблеме достоверности и надежности телевизионных рейтингов, получаемых с помощью такого измерительного инструмента как панель.

К тому, что кто-то ставит нам оценку, мы привыкли со школьной скамьи. От количества пятерок и троек в дневнике, порой, зависели и наше сиюминутное настроение, и наша дальнейшая судьба. Всю жизнь нас кто-то оценивает, и мы кому-то выставляем баллы. Это может происходить весело и увлекательно, в виде конкурса, соревнования или шоу. А может и по-серьезному, где ставка - зарплата, прибыль, карьера. «Оценка» на английском языке - rating (рейтинг). Это слово прочно вошло в наш современный лексикон. Система оценок количества зрителей, слушателей, читателей - рейтинги - являются, пожалуй, наиболее важными факторами, влияющими на самочувствие и дальнейшую судьбу множества людей, занятых в телевизионном и радио-бизнесе: редакторов, ведущих и продюсеров телепрограмм и радиостанций, коммерческих директоров печатных изданий.

Рейтинги стали чрезвычайно важными для оценки телевизионных программ и рекламных блоков. Война между телеканалами ведется, по сути, за рейтинги, как показатель влияния на зрителя, потребителя, избирателя. Каналы с высокими рейтингами получают больше денег за свои рекламные блоки и, следовательно, могут закупать лучшие программы, привлекать лучших специалистов. Акции и коммерческая стоимость канала в результате растут. Программы с высокими рейтингами передвигаются в прайм-тайм (время с большим числом зрителей) и получают более высокое материальное стимулирование. Люди, которые ведут высокорейтинговые программы, неожиданно становятся не только звездами на телевидении, но даже влиятельными фигурами в политике.

Но когда рейтинги снижаются, телеканалы, программы и представляющие их люди исчезают, иногда навсегда. Для творческих людей это всегда личная драма. Помню, как в 1994 году автор одной из таких программ жаловался: «Каждый день я получаю мешки писем от зрителей, а из-за рейтинга мою программу задвинули в ночной эфир». Его успокаивали: «Полпроцента - это все-таки почти полмиллиона зрителей по России, значит, этим людям ваша программа нужна». Но программу, в конце концов, телевизионные начальники из эфира убрали. Главным козырем был рейтинг - аргумент, претендующий на объективность.

Неспроста режиссеры телевизионных программ, менеджеры телекомпаний, рекламодатели и медиапланеры каждый день внимательно следят за численным критерием успеха программ - за рейтингами. Стоимость и выбор рекламных блоков, программ и их содержания также адаптируются к рейтингам. Оценки объемов рынка телевизионной рекламы различны - от $700 млн. до $900 млн. Расценки на размещение рекламы впечатляют - по официальным прайс-листам от $10000 до $60000 за минуту. За один пункт рейтинга рекламодатель платит примерно и $900, и в пять раз больше. Очевидно, что колебания рейтингов в 2-3%, связанные с недостатками в измерении и оценке аудитории, приводят к колебаниям расходов рекламодателей на телерекламу в сотни тысяч долларов только в рамках одной кампании. Это и заставляет нас задать следующий вопрос.

Итак, рассмотрим надежность телевизионных рейтингов, по которым в России сейчас производят размещение рекламы и оценку ее эффективности.

Оба российских измерителя (НИСПИ и Gallup-Media) осуществляют сбор данных о телесмотрении с помощью специальных приборов, пипл-метров. НИСПИ первым в России установил в 200 московских домохозяйствах приборы отечественной разработки. Gallup-Media (ГМ) сначала использовал устаревшие болгарские аппараты, а в 1999 году объявил о переходе на пипл-метры новой модели Eurometer. Панель НИСПИ рекламный рынок не принял, ее руководителя, Андрея Милёхина, подвергли остракизму: «тоже Кулибин нашелся», а Владимир Гродский, учредивший Gallup-Media, посредством впечатляющих пакетных скидок и под покровительством «Видео Интернешнл», добился фактически монопольного положения на рынке отечественной медиаметрии.

Каковы же основные параметры существующей телевизионной панели, результаты которой ходят в качестве «рекламной валюты»?

По заявлениям сотрудников ГМ, размер пипл-метрической панели в 19-ти городах России - 1200 домохозяйств, примерно от 30 до 62 счетчиков на город. В Москве выборка составляет 300 домохозяйств. Таким образом, с учетом различного количества членов семей в исследовании участвует около 3000 человек в выборке из крупных городов и около 800 человек в Москве. Однако достаточно ли этого количества для получения надежных и достоверных результатов?

Надежность рейтингов зависит от многих факторов.

К самым важным факторам относятся процедура отбора выборки, размер ее и величина получаемых рейтингов. О достоверности так называемой «национальной» панели говорить трудно, поскольку она построена в 21 городе, которые репрезентируют не всю Россию, и даже не городское население страны, а совокупность наиболее крупных городов. Распространять характер телевещания, особенности зрительского поведения и, соответственно, рейтинги телеканалов и телепрограмм на всю Россию, мягко говоря, ошибочно. Кроме того, «национальная панель» представляет собой замысловатую комбинацию ТВ-метров и печатных дневников, которая создает не только сложности в «сшивании» разнохарактерных данных, но и существенно понижает точность получаемых рейтингов. По объему выборки, единству метода лишь московская панель может претендовать на репрезентативность.

От чего зависит достоверность московских рейтингов?

От двух вещей: как от распределения отобранных в панель домохозяйств по районам города, так и от человеческого фактора - участия в измерении самих респондентов. Пожар на останкинской телебашне обнажил проблему существенных различий в охвате телевещанием в большинстве районов столицы. По идее, если в Москве СТС принимают 72% домохозяйств, М1 (31 канал) - 60%, а MTV - 47%, то в панели должно быть соответственно 216, 150 и 141 домохозяйств, принимающих эти каналы. При формировании и поддержании панели важно соблюдать в охвате телевещанием различных каналов реальные пропорции.

Необходимо учесть, что все известные методики панельных измерений предполагают обязательную 25-30-процентную сменяемость домохозяйств в течение года. Это делается для того, чтобы, во-первых, снизить эффект привыкания членов панели к процессу сбора информации, изменяющий их привычки телесмотрения.

Во-вторых, чтобы характеристики панели соответствовали изменившимся в течение года характеристикам телевещания (расширение зоны приема, появление новых телеканалов и проч.).

В-третьих, отобранные в панель домохозяйства со временем могут сами измениться (купили новый телевизор, кто-то уехал, изменился социальный статус) - все подобные изменения необходимо строго отслеживать и учитывать их при обновлении панели.

Согласие на участие в панельном исследовании также немаловажный фактор. В США и Западной Европе доля согласившихся на установку пипл-метров не превышает в среднем 30%. В России примерно такая же ситуация. Это означает, что о поведении и предпочтениях 70% зрителей исследователям ничего не известно. Частично компенсировать этот пробел призвана стратификация выборки и создание панельной матрицы, учитывающей несколько параметров:

размер домохозяйства;
cоциальный статус;
уровень образования;
количество телеприемников в домохозяйстве;
количество принимаемых телеканалов;
общее количество времени, проводимое у телевизора;
наличие телефона.

Однако гладко выходит только на бумаге. Как обстоит дело в действительности, а не по рекламным материалам измерителя, знает только сам измеритель.

Поскольку, в конечном счете, нас интересует зрительское поведение отдельных людей, а не семей, стратификация должна осуществляться на основе личностных характеристик, а не характеристик домохозяйств. Характеристики домохозяйств не очень много говорят о зрительском поведении отдельных членов семьи, поэтому они не способствуют повышению достоверности и надежности выборки путем стратификации. Повышение надежности после стратификации может оказаться ничтожным, поскольку оно пропорционально квадратному корню из размера выборки. Степень увеличения надежности в результате стратификации, основанной на всех переменных, неизвестна.

Для оценки надежности также имеет значение большое количество отказов при наборе выборки (по многолетним наблюдениям в США и Западной Европе оно составляет 70% случаев). Если отказ является просто отклонением от стратификационных переменных (то есть отказ коррелирует, например, с наличием телефона или числом принимаемых каналов), то стратификация должна аннулировать последствия отказа. А наличие такой корреляции чрезвычайно маловероятно. Гораздо более вероятным является предположение, что между респондентами и отказниками существуют систематические различия психографического, социального и статусного порядка, которые стратификация снять не может.

Чем сопровождалось внедрение и функционирование пипл-метрической панели в России?

Прежде всего, распространением мифа о том, что прибор-счетчик устраняет субъективность респондента и интервьюера при сборе информации о телесмотрении. По выражению одной из ведущих рубрики «ТелеГа» в МК, раньше было «дневниковое вранье», а теперь ТВ-метр выдает правильные данные.

Но ТВ-метр - это прибор, которым манипулирует все тот же респондент. Прибор, даже с посекундной регистрацией, бесстрастно фиксирует лишь включение и выключение телевизора, переключения с канала на канал. А вот кто смотрит в данную секунду на экран, и сколько человек находится в комнате с работающим телевизором - это должны зафиксировать нажатием определенных кнопок на пульте сами респонденты. Трудно представить себе картину, что в течение дня все обитатели квартиры, и стар и млад, только и делают, что нажимают на кнопки ТВ-метра, перемещаясь то на кухню, то в туалет, то в другую комнату. В результате получаются данные о так называемом «нулевом смотрении», когда телевизор работает как фон, и зрителя нет - кнопку забыли нажать. Или всю неделю в семье из четырех человек телевизор смотрел только один папа. Этот феномен давно замечен исследователями и описан в специальной литературе (BBM, Canada).

Западные исследователи пытаются выйти из положения проведением специальных тренингов с участниками панели, но человеческую натуру трудно изменить, и проблема остается актуальной. Она усугубляется, кроме прочего, значительным уменьшением аудитории во время трансляции рекламных роликов. По словам директора отдела стратегического планирования рекламного агентства Media Arts FCB, «падение аудитории передачи во время блока по пиплметрам - 60-100%» (цитируется по конференции «Всё о рекламе в России».

Это мнение подтверждается также многолетними данными R-TGI о том, как российские телезрители поступают во время трансляции рекламы по телевизору.

Действия российских телезрителей во время трансляции рекламы по ТВ

	Все	10-15 лет	16-24 года	25-34 года	35-44 года	45-54 года	55-64 года	Старше 65 лет
Продолжаю смотреть рекламу	14.8	26.1	15.1	12.5	13.0	11.5	12.6	16.8
Отвлекаюсь на другие дела, но не переключаю канал	31.2	29.9	31.9	29.8	28.9	33.1	33.5	32.2
Переключаю на другой канал	39.2	30.0	41.4	44.3	45.6	41.3	36.9	27.8
Выключаю телевизор	1.6	1.0	0.8	1.2	0.7	1.3	2.5	4.4
Выхожу из комнаты	4.8	3.5	3.5	4.1	4.6	5.2	7.0	6.0
Другое	4.4	4.8	4.1	5.0	3.6	4.7	3.2	5.7

Выходит, что один на один с рекламой чаще всего остаются дети и старики - не самая платежеспособная публика!

Рейтинг передачи, рекламного блока или рекламной вставки - это среднее число людей, смотрящих рекламный блок или вставку в течение их трансляции. Рейтинг может выражаться в процентах от населения или в тысячах человек (TVR), либо от числа зрителей, находящихся в данное время у экрана (Share).

Рассмотрим данные по рейтингу на примере популярных информационных программ.

Рейтинг популярных информационных программ

Дата	Канал	Программа	День	Share	TVR
14.05.00	НТВ	Итоги (19.00)	Воскресенье	36,2	13,1
09.05.00	НТВ	Сегодня вечером (22.00)	Вторник	34,5	10,75
07.05.00	ОРТ	Время	Воскресенье	29,54	9,48
14.05.00	НТВ	Итоги (21.00)	Воскресенье	20,7	8,04
13.05.00	ОРТ	Программа С. Доренко	Суббота	17,97	6,85
06.05.00	РТР	Вести (23.00)	Суббота	21,03	5,99

Источник: Gallup Media, опубликовано в «Рекламном журнале», № 7(67), 2000

В простой случайной выборке такие статистические данные, как рейтинги, не обязательно отражают подлинное состояние дел по причине погрешности при отборе выборки.

Соотношение людей в выборке отличается от реального соотношения. Но поскольку эта разница является случайной, мы можем вычислить вероятность того, что она находится в рамках определенных границ. Мы можем сказать с 95-процентной уверенностью, что границы надежности содержат реальное соотношение людей. Рассчитаем статистическую погрешность для данных рейтингов и границы, в которых находятся истинные значения рейтингов при выборке в 800 человек, по формуле:

где М - статистическая погрешность, р - рейтинг в процентах, n - размер выборки.

Как видим, границы значений рейтингов для первой и второй тройки программ перекрываются, а величина погрешности измерения в 1,6-2,3% не позволяет предоставлять полученные данные с точностью до двух знаков после запятой.

Относительная погрешность (M'=M/TVRl100%) для каждого из опубликованных рейтингов программ колеблется от 20% до 50% от величины рейтинга.

Но такая значительная погрешность измерения аудитории регулярных программ - еще полбеды. Гораздо проблематичнее получить на существующих панельных данных рейтинги целевых групп, например, такой: мужчины в возрасте от 18 до 45 лет с доходом выше среднего уровня.

Для начала рассчитаем долю этой целевой группы в населении, к примеру, Москвы. Людей этого возраста в столице примерно 47%, из них мужчины составляют меньше половины - 48%, а с доходами выше 1500 рублей на члена семьи - 23%. Таким образом, доля искомой целевой группы составляет: 0,47 x 0,23 x 100 = 10,8%

Следовательно, если допустить, что панель сконструирована репрезентативно, то необходимых нам респондентов набирается 800 x 0,108=86 человек. Предположим, что рейтинг программы составляет 15% в этой группе (что в 1,5 раза выше, чем среди всего населения). Это означает, что рейтинг получен на данных о просмотре программы 13-ю людьми (TVR1=86 x 0,15=12,9) из 300 домохозяйств. Даже в идеальном случае, когда все члены панели добросовестно нажимают свои кнопки на пульте, статистическая погрешность данного результата составляет

т.е. истинное значение с вероятностью 0,95 лежит в пределах 0,73%-2,47%. Другими словами, программу смотрели от 54800 до 185300 мужчин в возрасте 18-45 лет с доходом выше среднего уровня. Согласитесь, что такой разброс оценок, более чем в 2 раза, удовлетворить вдумчивого рекламодателя не может. Если учесть, что во время рекламы, половина зрителей переключилась на другой канал, то результат и вовсе становится иллюзорным.

Погрешности измерения рейтингов ТВ программ

Передача	Погрешность измерения	Границы значений
Итоги (19.00ч)	+ - 2,3%	или 10,8% - 15,4%
Сегодня вечером (22.00ч)	+ - 2,2%	или 8,6% - 13,0%
Время	+ - 2,0%	или 7,5% - 11,5%
Итоги (21.00ч)	+ - 1,9%	или 6,1% - 9,9%
Программа С. Доренко	+ - 1,8%	или 5,1% - 8,7%
Вести (23.00ч)	+ - 1,6%	или 4,4% - 7,6%

В реальности величина погрешности рейтингов замалчивается, а на скачках ежедневных рейтингов, объяснимых случайными погрешностями, навариваются далеко не виртуальные деньги.

Как можно видеть, относительные границы рейтингов, измеренных в течение одного дня, могут легко достичь 50%, и очевидно, что такие рейтинги являются ничего не значащими цифрами, не пригодными для того, чтобы на их основе принимать какие-либо решения. Представьте себе, что в магазине вам предлагают товар, цены на который скачут ежедневно на 30-40-50%. Купите вы его? Или поищете другой магазин? На самом деле, выбора у вас нет: магазин только один, цены на товар устанавливаются продавцом произвольно, жалобной книги нет.

Как выходят из положения опытные зарубежные медиапланеры?

Во-первых, большинство из них избавились от пиетета в отношении к пипл-метрии, а это позволяет им трезво и вдумчиво работать с имеющейся информацией.

Во-вторых, медиапланы рассчитываются не на ежедневных рейтингах, а на усредненных значениях за длительный период, например, за 1-3 месяца.

В-третьих, рекламные агентства и рекламодатели периодически заказывают независимым исследовательским компаниям так называемые «контрольные замеры телеаудитории». В этих случаях используются такие методики как Day-after-recall или CATI-опросы телезрителей в прайм-тайм.

В-четвертых, регулярно проводятся post-campaign опросы целевых групп потребителей на предмет запоминаемости рекламы, намерений покупать рекламируемую марку и проч.

Анализ показывает, что рейтинги аудитории одного дня не являются достаточно надежными.

Это происходит по причине погрешностей в выборке, особенно в случае небольших целевых групп и низких рейтингов. Когда же серия/ряд рейтингов приводятся к среднему значению, суммируются или используются различия в баллах, то надежность повышается. Оценки кампаний с десятками или даже сотнями выходов дают меньше случайных погрешностей. Но даже эти данные могут дать значительную дисперсию из-за погрешностей, связанных со случайной выборкой, особенно когда средние рейтинги аудитории являются низкими, а кампания ограничена несколькими десятками выходов.

Приведение к среднему значению результатов года еще больше повышает надежность. Чем больше число измерений (на человека или на большее количество людей), тем выше надежность. Только в этом случае дают о себе знать преимущества пипл-метрической панели: когда для оценки результатов кампании суммируются и усредняются десятки или даже сотни рейтингов рекламных вставок в течение всего периода рекламной кампании.

«-Истинно говорил аль-Халладж, - сказал он [Радуев], - самое большое чудо - это человек, не видящий вокруг себя чудесного. Но скажи мне, почему так часто? Один раз на моей памяти моча соприкасалась с кожей семнадцать раз за один час.
-Ну, это, наверно, для отчета в «Гэллап Медиа», - снисходительно ответил Березовский, - Сначала проворовались, а потом бюджет закрывали. А что такого? Сколько времени продадим, столько раз и поставим».
Виктор Пелевин «Generation «П»

Павел Елисеев

Комментарий

Новое сообщение

Статья
комментарий

Авторизация

Зияющие высоты рейтингов: проблемы надежности и достоверности измерений телеаудитории

Читайте также

Комментарий

Новое сообщение

Рубрики

Рассылка