Статистическая совокупность - множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.
Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом .
Единица совокупности — каждая конкретная единица статистической совокупности.
Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.
Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.
В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.
Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.
Признак - это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией .
Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).
Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.
Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.
Например, изучается зарплата:Основу составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой , а гипотетически существующая (домысливаемая) — генеральной совокупностью . Генеральная совокупность может быть конечной (число наблюдений N = const ) или бесконечной (N = ∞ ), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки . Если объем выборки достаточно велик (n → ∞ ) выборка считается большой , в противном случае она называется выборкой ограниченного объема . Выборка считается малой , если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30 ), а при измерении одновременно нескольких (k ) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10) . Выборка образует вариационный ряд , если ее члены являются порядковыми статистиками , т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами .
Пример . Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.
Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности , а несплошное (выборочное) наблюдение — только его части.
1. простой случайный отбор , при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными ;
2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими ;
3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными );
4. методы серийного отбора используются для формирования серийных или гнездовых выборок . Они удобны в том случае, если необходимо обследовать сразу "блок" или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);
5. комбинированный (ступенчатый) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной .
По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.
По методу отбора различают повторную и бесповторную выборку.
Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const ).
В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х 1 , х 2 , … , х n) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза ) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .
По своей природе распределения бывают непрерывными и дискретными . Наиболее известным непрерывным распределением является нормальное . Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю ) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p) . Дисперсия же альтернативного распределения также имеет эмпирический аналог .
В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.
Долей выборки k n называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:
k n = n/N .
Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n :
w = n n /n .
Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки k n в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).
Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки .
Таблица 9.1 Основные параметры генеральной и выборочной совокупностейПри любом (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).
Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).
Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.
Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).
Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .
Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку .
Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:
т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.
Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборкиГде - средняя из внутригрупповых выборочных дисперсий для непрерывного признака;
Средняя из внутригрупповых дисперсий доли;
— число отобранных серий, — общее число серий;
,
где — средняя -й серии;
— общая средняя по всей выборочной совокупности для непрерывного признака;
,
где — доля признака в -й серии;
— общая доля признака по всей выборочной совокупности.
Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.
Математически это утверждение для средней выражается в виде:
а для доли выражение (1) примет вид:
где -
есть предельная ошибка выборки
, которая кратна величине средней ошибки выборки ,
а коэффициент кратности — есть критерий Стьюдента ("коэффициент доверия"), предложенный У.С. Госсетом (псевдоним "Student"); значения для разного объема выборки хранятся в специальной таблице.
Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1) , с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3% .
В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.
Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюденияКонечной целью выборочного наблюдения является характеристика генеральной совокупности. При малых объемах выборки эмпирические оценки параметров ( и ) могут существенно отклоняться от их истинных значений ( и ). Поэтому возникает необходимость установить границы, в пределах которых для выборочных значений параметров ( и ) лежат истинные значения ( и ).
Доверительным интервалом какого-либо параметра θгенеральной совокупности называется случайная область значений этого параметра, которая с вероятностью близкой к 1 (надежностью ) содержит истинное значение этого параметра.
Предельная ошибка выборки Δ позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы , которые равны:
Нижняя граница доверительного интервала получена путем вычитания предельной ошибки из выборочного среднего (доли), а верхняя — путем ее добавления.
Доверительный интервал для средней использует предельную ошибку выборки и для заданного уровня достоверности определяется по формуле:
Это означает, что с заданной вероятностью Р
, которая называется доверительным уровнем и однозначно определяется значением t
, можно утверждать, что истинное значение средней лежит в пределах от ,а истинное значение доли — в пределах от
При расчете доверительного интервала для трех стандартных доверительных уровней Р = 95%, Р = 99% и Р = 99,9% значение выбирается по . Приложения в зависимости от числа степеней свободы . Если объем выборки достаточно велик, то соответствующие этим вероятностям значения t равны: 1,96, 2,58 и 3,29 . Таким образом, предельная ошибка выборки позволяет определить предельные значения характеристик генеральной совокупности и их доверительные интервалы:
Распространение результатов выборочного наблюдения на генеральную совокупность в социально-экономических исследованиях имеет свои особенности, так как требует полноты представительности всех ее типов и групп. Основой для возможности такого распространения является расчет относительной ошибки :
где Δ % - относительная предельная ошибка выборки; , .
Существуют два основных метода распространения выборочного наблюдения на генеральную совокупность: прямой пересчет и способ коэффициентов .
Сущность прямого пересчета заключается в умножении выборочного среднего значения!!\overline{x} на объем генеральной совокупности .
Пример . Пусть среднее число детей ясельного возраста в городе оценено выборочным методом и составило человека. Если в городе 1000 молодых семей, то число необходимых мест в муниципальных детских яслях получают умножением этой средней на численность генеральной совокупности N = 1000, т.е. составит 1200 мест.
Способ коэффициентов целесообразно использовать в случае, когда выборочное наблюдение проводится с целью уточнения данных сплошного наблюдения.
При этом используют формулу:
где все переменные — это численность совокупности:
При планировании выборочного наблюдения с заранее заданным значением допустимой ошибки выборки необходимо правильно оценить требуемый объем выборки . Этот объем может быть определен на основе допустимой ошибки при выборочном наблюдении исходя из заданной вероятности , гарантирующей допустимую величину уровня ошибки (с учетом способа организации наблюдения). Формулы для определения необходимой численности выборки n легко получить непосредственно из формул предельной ошибки выборки. Так, из выражения для предельной ошибки:
непосредственно определяется объем выборки n :
Эта формула показывает, что с уменьшением предельной ошибки выборки Δ существенно увеличивается требуемый объем выборки , который пропорционален дисперсии и квадрату критерия Стьюдента .
Для конкретного способа организации наблюдения требуемый объем выборки вычисляется согласно формулам, приведенным в табл. 9.4.
Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.
Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.
Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.
Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности
Дисперсия вычисляется по формуле из табл. 9.1.
Средняя квадратическая погрешность дня.
Ошибка средней вычисляется по формуле:
т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней .
Достоверность среднего составила
Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.
Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.
Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.
Пример 2. Оценка вероятности (генеральной доли) р.
При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2% , т.е. n/N = 0,02 ). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.
Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):
Предельная относительная ошибка выборки в % составит:
Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δ w , а доверительные пределы р вычисляются исходя из двойного неравенства:
w — Δ w ≤ p ≤ w — Δ w , т.е. истинное значение р лежит в пределах:
0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.
Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.
Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.
В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.
Таблица 9.5 Распределение наблюдений по срокам появленияРешение. Средний срок выполнения заявок вычисляется по формуле:
Средний срок составит:
= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.
Тот же ответ получим, если используем данные о р i из предпоследней колонки табл. 9.5, используя формулу:
Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.
Дисперсия вычисляется по формуле
где х i - середина интервального ряда.
Следовательно!!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .
Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно!!\overline{x} ± m = 23,1 ± 13,4.
Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:
Таким образом, среднее значение равно:
т.е. его истинное значение лежит в пределах от 0 до 50 мес.
Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.
Решение . Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:
В ней значение t определяется из для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δ x = 3. Подставляя эти значения в формулу, получим:
т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.
Выборка— это множество данных, взятых с помощью определённых процедур из генеральной совокупности для исследовательского анализа. Репрезентативность - это свойство воспроизведения представления о целом по его части. По иному, это возможность распространения представления о части на целое, которое эту часть включает в себя.
Репрезентативность выборки — это показатель, заключающийся в том, что выборка должна полно и достоверно отображать признаки той совокупности, частью которой она является. Её также можно определять как свойство выборки наиболее полно представлять характеристики генеральной совокупности, существенные с точки зрения цели исследования.
Допустим, что генеральная совокупность — все ученики школы (900 человек из 30 классов, по 30 человек в каждом классе). Объект исследования — отношение школьников к курению. Выборочная совокупность, состоящая из 90 учащихся только намного хуже представит всю совокупность, чем выборка из тех же 90 учеников, куда вошли бы из каждого класса по 3 ученика. Главная причина — неравное распределение по возрастам. Таким образом, в первом случае репрезентативность выборки будет низкой. Во втором случае - высокой.
В социологии говорят, что существует репрезентативность выборки и её нерепрезентативность.
В качестве примера нерепрезентативной выборки можно привести классический случай, произошедший в 1936 году в США во время президентских выборов.
Журнал «Литэрари дайджест», который до этого весьма успешно прогнозировал результаты предыдущих выборов, на этот раз ошибся в своих прогнозах, хотя разослал несколько миллионов письменных вопросов подписчикам, а также респондентам, которых они выбрали из телефонных книг и из списков регистрации автомобилей. В 1/4 бюллетеней, которые вернулись заполненные обратно, голоса распределились следующим образом: 57 % отдали первенство кандидату от республиканцев по имени Альф Лэндон, а 41 % отдали предпочтение действующему президенту - демократу Франклину Рузвельту.
В действительности, на выборах победил Ф. Рузвельт, который набрал почти 60 % голосов. Ошибка «Литэрари дайджест» была в следующем. Они захотели увеличить репрезентативность выборки. А так как они знали, что большинство их подписчиков относят себя к республиканцам, то они решили расширить выборку за счёт респондентов, выбранных ими из телефонных книг и автомобильных регистрационных списков. Но они не учли существующих реалий и фактически отобрали ещё больше сторонников республиканцев, потому что во времена иметь автомобили и телефоны мог позволить себе средний и высший класс. А это и были по большей части республиканцы, а не демократы.
Существуют различные виды выборки: простая случайная, серийная, типическая, механическая и комбинированная.
Простая случайная выборка состоит в отборе из всей совокупности изучаемых единиц наугад без какой-либо системы.
Механическую выборку применяют тогда, когда в генеральной совокупности есть упорядоченность, например, имеется некая последовательность единиц работников, избирательные списки, номера телефонов респондентов, номера квартир и домов и другое).
Типический отбор используется тогда, когда всю совокупность можно разделить на группы по типам. При работе с населением такими могут быть, например, образовательные, возрастные, социальные группы, при исследовании предприятий - отрасль или отдельная организация и др.
Серийный отбор удобен тогда, когда единицы объединены в небольшие серии или группы. Такой серией могут быть партии готовой продукции, школьные классы, и другие группы.
Комбинированная выборка предполагает использование всех предыдущих видов выборки в той или иной комбинации.
Репрезентативная выборка
Репрезентативная выборка
Репрезентативная выборка - выборка, имеющая такое же распределение относительных характеристик, что и генеральная совокупность.
По-английски: Representative sample
См. также: Выборочные совокупности
Финансовый словарь Финам .
Репрезентативная выборка - Группа участников, бюлее или менее точно представляющая состав изучаемой популяцши. Выборка может отражать распределение по возрастным и пошовым признакам, а также любые другие характеристики, влияюпцие на результат эксперимента с точки зрения… …
репрезентативная выборка - — [Англо русский глоссарий основных терминов по вакцинологии и иммунизации. Всемирная организация здравоохранения, 2009 г.] Тематики вакцинология, иммунизация EN representative sampling … Справочник технического переводчика
РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА - (representative sample) выборка, которая является (или считается) истинным отражением родительской популяции, то есть имеет тот же профиль признаков, например, возрастную структуру, классовую структуру, уровень образования. Репрезентативная… … Большой толковый социологический словарь
РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА - См. выборка, репрезентативная … Толковый словарь по психологии
РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА - такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности … Энциклопедический словарь по психологии и педагогике
Репрезентативная выборка - это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной… … Социологический словарь Socium
Репрезентативная выборка - (representative sample). Выборка, точно отражающая состояние и свойства всей популяции … Психология развития. Словарь по книге
выборка представительная - (выборка репрезентативная) выборка, произведенная по правилам, то есть так, что она отражает специфику совокупности генеральной и по составу, и по индивидуальным характеристикам включаемых субъектов. Словарь практического психолога. М.: АСТ,… … Большая психологическая энциклопедия
Англ. sampling, representative; нем. Stichprobe, reprasentative. Выборка, имеющая, по сути дела, такое же распределение относительных характеристик, как и генеральная совокупность. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии
Representative sample Выборка, имеющая такое же распределение относительных характеристик, что и генеральная совокупность Словарь бизнес терминов. Академик.ру. 2001 … Словарь бизнес-терминов
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной 39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.
Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (см. выше).
Сегодня многие трудные расчеты берет на себя техника, а статистические программы можно получить по Интернету. Вот и с расчетом выборки ленивому социологу предоставили такую возмож-
ность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.bma.ru/enter.htm), где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».
Контроль и ремонт выборки
Качество социологической информации может снизить множество факторов: неправильно сформулированные анкетные вопросы, не так выбранный метод исследования, пропущенные ответы в анкетах, нечетко спланированная выборка и др.
Практика эмпирических исследований - зарубежных и отечественных, фундаментальных и прикладных - свидетельствует, что ошибки, в том числе при составлении выборки, встречаются почти в каждом исследовании. Другой вопрос - значимые или незначимые смещения такого рода. А поскольку ошибки, накладки и смещения происходят всегда, то для специалистов, занятых контролем и ремонтом выборки, работа всегда найдется. Да и саму эту область методической науки преждевременная старость не ожидает. Не только в науке, но и в любой другой сфере профессия контролеров и ремонтников всегда была хлебной и престижной.
Контролем выборки будем называть процесс научного сравнения генеральной и выборочной совокупностей, выявление степени их расхождения, обнаружение причин отклонения и разработку возможных способов устранения погрешностей. В узком смысле - это уравнивание выборочных и генеральных распределений социально-демографических характеристик респондентов.
Под ремонтам выборки надо понимать сам процесс устранения погрешностей, т.е. расхождения двух совокупностей, теми способами, методами и инструментами, которые предлагает методическая наука.
Таким образом, второй прием выступает практической реализацией первого, аналитического, а оба они составляют два обязательных этапа проведения социологического исследования.
Часто контроль выборки употребляют в расширенном значении, включая в него также ремонт выборки. В этом случае говорят о широком понимании ремонта выборки как первичной статистической обработки данных, включающей коррекцию: а) выборочной совокупности; б) распределений социально-демографических характеристик респондентов; в) резко выделяющихся и пропущенных ответов, а также взвешивание исходных данных. Указанные виды коррекции призваны отремонтировать самое главное - выборку исследования, повысить степень ее репрезентативности. Почему это главное? Анкета может быть исключительно интересной, глубокой
Основная цель ремонта выборки - повышение качества уже собранной информации. Процедура ремонта выборки включает несколько операций 40 .
Коррекция выборочной совокупности. Далеко не всегда отобранные респонденты, по самым разным обстоятельствам, могут или желают отвечать на вопросы. Кто-то заболел или уехал в срочную командировку, другой отказывается по идейным соображениям или не способен отвечать в силу умственной недостаточности. Кого-то трудно застать дома, хотя анкетер приходил к нему не единожды.
Возникает проблема замены респондентов, которая может быть решена с помощью нескольких методов: выбор следующего по списку респондента (например, следующего номера в телефонном справочнике), использование первоначальной выборки больших размеров и формирование повторной выборки. В последнем случае, если процент ответов оказался намного ниже, чем ожидалось, основа выборки расширяется за счет дополнительных имен, найденных, например, случайным образом. Самым эффективным способом считается поиск эквивалентной замены. Если, к примеру, в вашу выборку попал работающий пенсионер такой-то национальности и овдовевший, то желательно подыскать ему в качестве замены другого пенсионера сходного возраста, национальности, овдовевшего и работающего. Нередко подобный способ превращается в трудо- и времязатратное мероприятие. Если список генеральной совокупности невелик и найти замену не удается, следует отказаться от эквивалентного метода и перейти к другому.
Коррекция распределений демографических характеристик респондентов. Если по окончании исследования в паспортичке вашего исследования получилось, что у вас, к примеру, перебор женщин, людей с высшим образованием или пожилых людей в сравнении с теми процентными долями, которые они имеют в генеральной совокупности, то можно применить три способа: 1) удалить те группы респондентов, которые оказались представлены в избыточном количестве; 2) доопросить те группы, которые оказались представ-
ленными в недостаточном количестве; 3) математически повысить значение ответов, представленных недостаточно, или снизить - представленных избыточно. Но сначала желательно выяснить, а влияет ли то и другое на содержание ответов. Может быть, все можно оставить и так.
Взвешивание исходных данных - математический способ повышения или понижения значения ответов конкретной группы респондентов (например, незамужних сельских женщин в возрасте от 30 до 45 лет). Взвешивание означает присваивание каждому респонденту определенного веса (коэффициента, на который нужно умножить все мнения-ответы одного или группы респондентов ради восстановления репрезентативности). По мнению А. Балабанова 41 , взвешивание - единственный способ восстановления репрезентативности в панельных исследованиях без потери точности. Поскольку способов взвешивания существует очень много, то перед социологом возникают достаточно непростые методологические проблемы, которые без соответствующей подготовки и знаний решить невозможно. Весовые коэффициенты можно определять по-разному, а сам процесс присвоения коэффициентов почти невозможно контролировать со стороны, другим исследователям. Самый простой способ - численность конкретной социально-демографической группы, например подростков от 13 до 17 лет, из генеральной совокупности (N) делят на количество респондентов, представляющих данную возрастную группу (п), полагая, что один респондент представляет мнение jVчеловек генеральной совокупности.
Сотрудники Института социологии АН СССР А.А. Давыдов и А. О. Крыштановский в свое время установили любопытные факты 42 . Оказывается, демофафические признаки респондентов почти никак не связаны с ответами об удовлетворенности работой и жизнью, оценкой темпов перестройки, одобрением деятельности политических лидеров, оценкой внешнеполитических событий и т.д. Другими словами, мужчины и женщины одинаково отвечают на вопросы об удовлетворенности жизнью или о политических событиях. Для этих индикаторов перевзвешивание проводить не нужно. Если же одна характеристика, например пол, тесно связана со всеми содержательными вопросами или разные вопросы связаны с различными характеристиками, то коррекцию придется делать по схеме, описанной в пособии.
Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста.
Коррекция резко выделяющихся ответов респондентов. При опросе иногда попадаются такие ответы респондентов, которые резко выделяются на общем фоне. Причины могут быть самые разные: респондент неправильно понял вопрос анкеты, у него оригинальные взгляды на мир или попросту решил подшутить над учеными. Могут быть и другие причины. Но вернуться к нему и переспросить уже нельзя. В таком случае, особенно если анкет много, бракованный экземпляр лучше удалить из общего массива.
Коррекция пропущенных ответов. Пропуски чаще всего возникают в открытых и табличных вопросах. Самый простой способ коррекции - исключить их или всю анкету из научного анализа. При пропуске не содержательного вопроса, а того, что. имеется в паспортичке, поступают так. Если социально-демографические характеристики не связаны с содержательными ответами, то анкете с пропущенными значениями следует присвоить наиболее часто встречающиеся в выборке социально-демографические характеристики либо определить их случайным образом или пропорционально (если таких анкет много). Если же связь есть, то следует определить, к ответам какой группы (например, мужчин или женщин) ближе ответы в анкете, где графа «пол» не указана, и внести этот признак 44 .
Если данных получено много, то ремонт выборки может осуществляться за счет сокращения выборочной совокупности. Это, по мнению А.А. Давыдова и А.О.Крыштановского, наиболее рациональный подход к ремонту выборки, поскольку данная стратегия не опирается ни на какие дополнительные допущения. Если объем выборки незначителен, то для ее ремонта нужно принимать ряд дополнительных допущений, которые не следуют из собранного материала и истинность которых трудно проверить.
Переформирование выборки осуществляется тогда, когда проверка показала, что выборка не представляет совокупность в целом. В этом случае выбираются новые респонденты, и они добавляются к ранее использованной выборке, пока не достигается удовлетворительный уровень репрезентативности.
Далеко не все социологи, организующие эмпирическое исследование, включают данные о контроле и ремонте выборки в его «паспортичку». Так, среди 300 исследований, содержавшихся в Банке данных ИС АН СССР на 1988 г., лишь в десяти осуществлялся ремонт выборки 45 . Для сравнения отметим: за рубежом ремонт выборки уже давно стал распространенным методом повышения качества социологической информации.
Раньше причины отставания таились в отсутствии вычислительной техники, специализированного программного обеспечения, методических пособий, недостаточной квалификации исследователей. Сегодня есть и техника, и нужные программы, но проблема не решена. Видимо, ее нельзя свести лишь к техническим аспектам.
На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, предшествующих опросов на том же объекте. В качестве контрольных параметров обычно применяются социально-демографические признаки (пол, возраст, национальность, семейное положение). Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.
Например, институт Дж. Гэллапа, использующий выборки объемом 1500 чел., контролирует репрезентативность по имеющимся в национальных цензах данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности (белый - цветной), месту проживания, величине населенного пункта 46 . В исследованиях, проводимых ВЦИОМ, надежность выборочных данных определяется методом апостериорного контроля. В анкету мониторинга обязательно включают несколько вопросов, по которым имеется надежная информация в Госкомстате РФ. К ним обычно относятся пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента. Четыре показателя - пол, возраст, образование и место жительства респондента используются для выделения контролируемых групп при определении весов
опрошенных - они должны соответствовать аналогичным группам в генеральной совокупности 47 . Поскольку из официальной статистики известно, сколько в России мужчин и женщин, то легко сравнить по этим цифрам данные мониторинга и определить погрешность.
В обследованиях Центра «Социо-Экспресс» Института социологии РАН репрезентативность всероссийской выборки (проектный объем 2 тыс. чел.) контролируется по региональным пропорциям численности населения, пропорциям между городским и сельским населением, пропорциям между населением указанных типов населенных пунктов. Опрос производится методом формализованного интервью по месту жительства. В основе размещения выборки лежат десять экономико-географических зон, в каждой из которых выделяются крупные города (численностью свыше 500 тыс. населения), средние города (50-500 тыс.), малые города (до 50 тыс.) или поселки городского типа, а также сельские населенные пункты. Авторы полагают, что предельная ошибка их выборки не превышает 3% 48 .
Эффективным контролем выборки и вообще качества данных в исследовании служит публикация ключевых характеристик исследования, прежде всего методического инструментария. Если автор исследования скрывает информацию, указывая на коммерческую тайну, то обязательно должно возникнуть подозрение в его нечистоплотности. Как справедливо замечает А. Балабанов, все методики измерений, даже в сфере маркетинговых исследований и масс-медиа, давно известны, они абсолютно открыты и не могут являться объектом коммерческой тайны. Более того, отсутствие данных о методике измерений является нарушением всех имеющихся в мире соглашений, в частности о медиаизмерениях 49 .
Паспортичка выборки
При написании научного отчета и публикации статьи в академическом журнале от авторов исследования всегда требуют четких разъяснений относительно самого исследования и выбороч-
ной совокупности: кто и когда проводил исследование, какие методы исследования использовались, каковы тип, объем и характер выборки, ошибка репрезентативности, состав выборочной совокупности по главным параметрам (например, пол, возраст, национальность, образование), контроль данных и др. Если эти сведения отсутствуют, то статью в журнал обычно не принимают, а если они присутствуют лишь частично, то им не доверяют серьезные исследователи. Таким образом, паспортичка исследования и паспортичка выборки необходимы авторам не меньше, чем редакторам и читателям.
Паспортичка выборки появляется у социолога дважды. Первый раз характеристику типа выборки с кратким обоснованием целесообразности ее использования в соответствии с целями исследования, требованиями репрезентативности и организационными возможностями исследования социологу приходится давать в Методическом разделе программы своего исследования. Раздел о выборке содержит ответы на следующие вопросы:
♦ Каков эмпирический объект исследования?
♦ Является ли исследование сплошным или выборочным?
♦ Если оно является выборочным, то претендует ли оно на репрезентативность?
♦ Если оно претендует на репрезентативность, то какова генеральная совокупность?
♦ Сколько ступеней отбора применяется в выборке?
♦ Какова единица отбора на каждой ступени?
♦ Какая стратегия отбора применяется на каждой ступени (случайная, квотная)?
♦ Какая конкретно разновидность случайного отбора применяется?
♦ Какие параметры используются при квотной выборке?
♦ Что является основой выборки (список, картотека, карта)?
♦ Какова единица наблюдения на последней ступени отбора?
Принципы выборки описываются не только для метода опроса, но и для каждого метода, используемого в исследовании: анализ документов, наблюдение и т.д.
Условный пример описания выборки. В исследовании эффективности бригадных форм организации труда возможна такая стратегия. 1. В качестве эмпирического объекта принимаются рабочие, объединенные в бригадную форму организации труда. 2. Исследование выборочное. 3. Генеральной совокупностью выступают все рабочие, объединенные в бригадную форму. 4. Применяются три ступени отбора. 5. На первой ступени выделяются бригады, занятые в основном и вспомогательном произвол-
стве. Для последних применяется сплошной опрос (в связи с их малочисленностью), а для первых - выборочный. 6. Вторая ступень - отбор бригад, занятых в основном производстве. По показателям, характеризующим конечные результаты, бригады разделяются на три группы: а) передовые; б) средние; в) отстающие. В зависимости от числа бригад на каждую группу составляют список, и по нему делается случайный непропорциональный отбор (например, по три бригады в каждой) с помощью опреде-ленного «шага выборки». 7. Третья ступень - в отобранных бригадах проводится сплошной опрос. Единицей наблюдения выступает отдельный работник 50 .
Второй раз с описанием выборки социолог встречается уже после проведения исследования - когда пишет научный отчет или научную статью в журнал.
Неполное описание паспортных данных исследования, к сожа-лению, самая распространенная болезнь российских ученых. Не-которые не знают, как именно их составлять, другие считают та-кие сведения необязательными или неважными. А есть и такая ка-тегория исследователей, которым сообщить просто нечего, поскольку, описав все сведения о выборке, они разоблачат свою неграмотность. Распространенный случай - социолог как-то про-вел исследование, каким-то образом построил выборку и что-то там получил. Но сформулировать паспортичку, выразить на научном языке свои действия он не может.
Хроническая болезнь отечественных социологов - отсутствие или недостаточно высокая методическая культура. Она касается не только организации и проведения полевого исследования, но и публикации его результатов в открытой печати. Подобный факт известен всем и о нем переодически говорят с 1960-х по 2000-е гг. Иногда наших социологов и психологов удается, что называется, застичь на месте преступления.
Согласно данным исследования В.В. Солодникова, который провел вторичный анализ публикаций в трех академических жур- налах: «Социологические исследования», «Вопросы психологии»
и «Психологический журнал» за 1986-1992 гг., ни социологи, ни психологи не утомляют себя выдвижением, обоснованием и проверкой гипотез. Большинство ученых (от 61 % у психологов до 92% у социологов) обходится без такого познавательного инструмента, нарушая все каноны научного метода. Только в 8% социологических публикаций гипотезы формулируются в явном виде. Плохо обстоит дело у социологов и психологов с описанием объекта исследования: мало кто указывает количество опрошенных, пол и возраст респондентов, редко сообщается уровень образования опрошенных, место проживания, продолжительность семейной жизни (для состоящих в браке), доход и профессиональный статус. Проблема репрезентативности, т.е. сравнение выборочной и генеральной совокупностей по указанным признакам, почти совсем не обсуждается. Кроме того, единичны упоминания социологов о пилотаже инструментария, об использовании ранее апробированных методик. Хотя самым распространенным методом сбора эмпирической информации выступает опрос, редко кто описывает, какой именно его вид применялся в зависимости от места, времени или способа заполнения анкеты.
2.12. Репрезентативность
Репрезентативность (франц. representatif - показательный) - свойство выборочной совокупности представлять характеристики генеральной совокупности. Репрезентативность выборки означает, что с некоторой наперед заданной или вычисленной на фактической выборке погрешностью установленное на выборочной совокупности можно отождествить с генеральной совокупностью или, если использовать язык статистики, найти оценки параметров генеральной совокупности. Во-первых, каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку. Во-вторых, во избежание направленного отбора выбор единиц генеральной совокупности нужно производить независимо от изучаемого признака. В-третьих, отбор должен производиться по возможности из однородных совокупностей. В-четвертых, число единиц генеральной совокупности, отобранных для обследования, должно быть достаточно большим.
Процесс непосредственного определения репрезентативности выборки складывается из этапов: сопоставление средних показателей распределений выборочной и генеральной совокупностей; сопоставление форм распределения этих показателей. Средний показатель распределения обычно берется как средняя 144
арифметическая или средневзвешенная арифметическая этого распределения.
В случае изучения совокупностей с альтернативными признаками вместо средней арифметической вычисляется доля единиц, обладающих рассматриваемой характеристикой, относительно всей совокупности. Если обозначить объем совокупности символом N, а явление с данным признаком - М, то Р - доля явлений с этим признаком определяется:
где Q - доля явлений с альтернативным признаком.
Пользоваться выводами, полученными на основании исследо-вания выборочной совокупности, можно в том случае, если раз-ность между средними арифметическими (или средними долями)" признаков выборочной и генеральной совокупностей стремится к нулю. Предполагается, что это требование удовлетворяется при выполнении четырех условий, оговоренных выше. Правда, зная только выборочные средние показатели, нельзя дать точные оцен-ки их разности, так как неизвестны средние показатели генераль-ной совокупности. Кроме того, сами значения выборочных средних могут колебаться в зависимости от того, какие единицы генеральной совокупности попадут в выборку. Поэтому оценка репрезентативности выборочной совокупности по средним показателям ее распределения сводится к поиску ошибки репрезентативности.
Сравнение выборочной и генеральной совокупностей по средним показателям не дает полного представления о генеральной совокупности. Так, в двух совокупностях с одинаковыми средними показателями расхождения между максимальным и минимальным значением признака, определяющие форму его распределения, могут быть различны. Если представить такое распределение графически, то оно образует симметричную колоколообразную (нормальную) кривую, отражающую тот факт, что сумма многих независимых произвольно распределенных случайных переменных приближенно распределяется по нормальному закону. Ордината у, которая определяет высоту кривой для каждой точки х, представляет собой плотность вероятности для значения х г
Максимум плотности вероятности приходится на среднее значение переменной и равен единице. Это означает, что чем меньше
случайное значение переменной отличается от ее среднего значения, тем больше вероятность его проявления. И наоборот, чем больше отклонение значений переменной от ее средней величины, тем вероятность их появления меньше. Таким образом, значения отклонений от средних величин, т.е. значения вида х (- х, несут информацию о вариации изучаемых переменных. Если бы все значения признака были одинаковы и совпадали с его средней величиной, то совокупность значения этого признака была бы предельно однородной.
Обычно число положительных отклонений от среднего арифметического значения совокупности примерно равно числу отрицательных отклонений, т.е. сумма всех отклонений неизбежно стремится к нулевому значению. Поэтому, если бы потребовалось просуммировать все отклонения признака в совокупности, эта сумма всегда была бы равна нулю:
Во избежание этого каждое отклонение возводят в квадрат и находят сумму квадратов - дисперсию.
Нормальное распределение в полной мере характеризуется параметрами: jc - среднее значение признака и а - среднее квадратичное (стандартное) отклонение. Среднее х определяет положение распределения относительно оси х; стандартное отклонение показывает форму кривой; чем больше значение а, тем шире кривая и тем ниже ее максимум.
Площадь под нормальной кривой располагается таким образом, что в границах х ± о находится 68% всего распределения признака, в границах х ± 2<т - 95,5, в пределах х ± Зет - 99,7%. Вероятность того, что разность между случайной переменной, распределенной примерно по нормальному закону, и ее средним значением по абсолютной величине превосходит Зет, меньше 0,3%. Отсюда следует, что практически со стопроцентной точностью можно утверждать:
Оценка репрезентативной выборочной совокупности по форме распределения показателей представляет собой сравнение мер вариации этих показателей в выборочной и генеральной совокупностях. Дисперсия генеральной совокупности известна далеко не в сегда, однако в математической статистике доказано, что меж-
ду генеральной и выборочной дисперсиями существует соотношение вида:
где п - объем выборки.
Проблема репрезентативности выборки имеет важное значение как проблема правомерности экстраполяции выводов, полученных при анализе выборочной совокупности, на всю генеральную со-вокупность 52 .
Глава 3. ПРОГРАММА
Похожая информация.
Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.
Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.
Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .
Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.
Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.
Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.
Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :
Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).
Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.
После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .