Бутстреп, малые выборки, применение в анализе данных. Статистика малых выборок (small-sample statistics) Способы отбора единиц из генеральной совокупности

При контроле качества товаров в экономических исследованиях эксперимент может проводиться на основе малой выборки.

Под малой выборкой понимается несплошное статистическое обследование, при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности. Объем малой выборки обычно не превышает 30 единиц и может доходить до 4 - 5 единиц.

Средняя ошибка малой выборки вычисляется по формуле:

где
- дисперсия малой выборки.

При определении дисперсии число степеней свободы равно n-1:

Предельная ошибка малой выборки
определяется по формуле

При этом значение коэффициента доверия t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по специальным таблицам Стьюдента (Табл. 9.1.), в которых даны распределения стандартизированных отклонений:

Поскольку при проведении малой выборки в качестве доверительной вероятности практически принимается значение 0,59 или 0,99, то для определения предельной ошибки малой выборки
используются следующие показания распределения Стьюдента:

Способы распространения характеристик выборки на генеральную совокупность.

Выборочный метод чаще всего применяется для получения характеристик генеральной совокупности по соответствующим показателям выборки. В зависимости от целей исследований это осуществляется или прямым пересчётом показателей выборки для генеральной совокупности, или посредством расчёта поправочных коэффициентов.

Способ прямого пересчёта. Он состоит в том, что показатели выборочной долиили среднейраспространяется на генеральную совокупность с учётом ошибки выборки.

Так, в торговле определяется количество поступивших в партии товара нестандартных изделий. Для этого (с учётом принятой степени вероятности) показатели доли нестандартных изделий в выборке умножаются на численность изделий во всей партии товара.

Способ поправочных коэффициентов . Применяется в случаях, когда целью выборочного метода является уточнение результатов сплошного учета.

В статистической практике этот способ используется при уточнении данных ежегодных переписей скота, находящегося у населения. Для этого после обобщения данных сплошного учета практикуется 10%-ное выборочное обследование с определением так называемого “процента недоучета”.

Способы отбора единиц из генеральной совокупности.

В статистике применяются различные способы формирования выборочных совокупностей, что обусловливается задачами исследования и зависит от специфики объекта изучения.

Основным условием проведения выборочного обследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности. Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов формирования выборочной совокупности.

Существуют следующие способы отбора единиц из генеральной совокупности:

1) индивидуальный отбор - в выборку отбираются отдельные единицы;

2) групповой отбор - в выборку попадают качественно однородные группы или серии изучаемых единиц;

3) комбинированный отбор - это комбинация индивидуального и группового отбора.

Способы отбора определяются правилами формирования выборочной совокупности.

Выборка может быть:

Собственно-случайная;

Механическая;

Типическая;

Серийная;

Комбинированная.

Собственно-случайная выборка состоит в том, что выборочная совокупность образуется в результате случайного (непреднамеренного) отбора отдельных единиц из генеральной совокупности. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки.

Доля выборки есть отношение числа единиц выборочной совокупности n к численности единиц генеральной совокупности N, т.е.

Так, при 5%-ной выборке из партии товара в 2 000 ед. численность выборки n составляет 100 ед. (5*2000:100), а при 20%-ной выборке она составит 400 ед. (20*2000:100) и т.д.

Механическая выборка состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы). При этом размер интервала в генеральной совокупности равен обратной величине доли выборки.

Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке - каждая 20-я единица (1:0,05) и т.д.

Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.

Важной особенностью механической выборки является то, что формирование выборочной совокупности можно осуществить, не прибегая к составлению списков. На практике часто используют тот порядок, в котором фактически размещаются единицы генеральной совокупности. Например, последовательность выхода готовых изделий с конвейера или поточной линии, порядок размещения единиц партии товара при хранении, транспортировке, реализации и т.д.

Типическая выборка. При типической выборке генеральная совокупность вначале расчленяется на однородные типические группы. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.

Типическая выборка обычно применяется при изучении сложных статистических совокупностей. Например, при выборочном обследовании производительности труда работников торговли, состоящих из отдельных групп по квалификации.

Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность.

Для определения средней ошибки типической выборки используются формулы:

повторный отбор

бесповторный отбор

Дисперсия определяется по следующим формулам:

При одноступенчатой выборке каждая отобранная единица сразу же подвергается изучению по заданному признаку. Так обстоит дело при собственно-случайной и серийной выборке.

При многоступенчатой выборке производят подбор из генеральной совокупности отдельных групп, а из групп выбираются отдельные единицы. Так производится типическая выборка с механическим способом отбора единиц в выборочную совокупность.

Комбинированная выборка может быть двухступенчатой. При этом генеральная совокупность сначала разбивается на группы. Затем производят отбор групп, а внутри последних осуществляется отбор отдельных единиц.

Распространение выборочных характеристик на генеральную совокупность, основанное на действии закона больших чисел, предполагает достаточно большой объем выборки. Однако в практике статистического исследования часто приходится сталкиваться с невозможностью по тем или иным причинам увеличить численность единиц выборки, имеющей небольшой объем. Это касается изучения деятельности предприятий, учебных заведений, коммерческих банков и т.д., число которых в регионах, как правило, незначительно, а иногда составляет всего 5-10 единиц.

В том случае когда выборочная совокупность состоит из небольшого числа единиц, менее 30, выборку называют малой. В этом случае для расчета ошибки выборки нельзя пользоваться теоремой Ляпунова, так как на выборочную среднюю значительное влияние оказывает величина каждой из случайно отобранных единиц и ее распределение может существенно отличаться от нормального.

В 1908 году В.С. Госсет доказал, что оценка расхождения между выборочной средней малой выборки и генеральной средней имеет особый закон распределения (см. главу 4). Занимаясь проблемой вероятностной оценки выборочной средней при небольшом числе наблюдений, он показал, что в этом случае нужно рассматривать распределение не самих выборочных средних, а величин их отклонений от средней исходной совокупности. В этом случае заключения могут быть достаточно надежными.

Открытие Стьюдента называют теорией малых выборок.

При оценке результатов малой выборки величина генеральной дисперсии в расчетах не используется. В малых выборках для расчета средней ошибки выборки применяют «исправленную» выборочную дисперсию:

т.е. в отличие от больших выборок в знаменателе вместо п стоит (и - 1). Расчет средней ошибки выборки для малой выборки приведен в табл. 5.7.

Таблица 5.7

Расчет средней ошибки малой выборки

Предельная ошибка малой выборки равна: где t - коэффициент доверия.

Величина t иначе связана с вероятной оценкой, чем при большой выборке. В соответствии с распределением Стьюдента вероятная оценка зависит как от величины t, так и от объема выборки я в случае, если предельная ошибка не превысит г-кратную среднюю ошибку в малых выборках. Однако в большей степени она зависит от числа отобранных единиц.

В.С. Госсет составил таблицу распределения вероятностей в малых выборках, соответствующих данным значениям коэффициента доверия t и разным объемам малой выборки и, выдержка из нее приведена в табл. 5.8.

Таблица 5.8

Фрагмент таблицы вероятностей Стьюдента (вероятности умножены на 1000)

Данные табл. 5.8 свидетельствуют о том, что при неограниченном возрастании объема выборки (я = °°) распределение Стьюдента стремится к нормальному закону распределения, а при я = 20 уже мало от него отличается.

Таблица распределения Стьюдента часто приводится в другой форме, более удобной для практического применения (табл. 5.9).

Таблица 5.9

Некоторые значения (-распределения Стьюдента

Число степеней свободы
Число степеней свободы	для одностороннего интервала	для двустороннего интервала
			Р= 0,99

Рассмотрим, как пользоваться таблицей ^распределения. Каждому фиксированному значению п вычисляют число степеней свободы k , где k = п - 1. Для каждого значения степени свободы указана предельная величина t p (t 095 или t 0 99), которая с данной вероятностью Р не будет превышена в силу случайных колебаний результатов выборки. На основе величины t p определяются границы доверительного

интервала

В качестве доверительной вероятности при двусторонней проверке, как правило, используют Р = 0,95 или Р = 0,99, что не исключает выбора и других значений вероятностей. Значение вероятности выбирается исходя из конкретных требований задач, для решения которых применяется малая выборка.

Вероятность выхода значений генеральной средней за пределы доверительного интервала равна q, где q = 1 - р. Это значение весьма мало. Соответственно для рассмотренных вероятностей р оно составляет 0,05 и 0,01.

Малые выборки имеют широкое распространение в технических науках, в биологии, но применять их в статистических исследованиях нужно с большой осторожностью, только при соответствующем теоретическом и практическом обследовании. Использовать малую выборку можно только в том случае, если распределение признака в генеральной совокупности является нормальным или близким к нему, а средняя величина вычисляется по выборочным данным, полученным в результате независимых наблюдений. Кроме того, следует иметь в виду, что точность результатов выборки малого объема ниже, чем при большой выборке.

Выборка – ограниченная по численности группа объектов (в психологии – испытуемых, респондентов) специально отбираемая из генеральной совокупности для изучения ее свойств .

Генеральная совокупность – это все множество объектов, в отношении которого формулируется исследовательская гипотеза .

Изучение на выборке свойств генеральной совокупности называется выборочным исследованием . Практически все психологические исследования являются выборочными, а их выводы распространяются на генеральные совокупности.

Основное требование к выборке испытуемых – ее репрезентативность – представительность, показательность, соответствие характеристик, полученных в результате частичного (выборочного) обследования какой-либо группы, характеристикам этой группы в целом. . Исследователь должен помнить о возможности распространения выводов конкретного обследования на всю популяцию, частью которой является обследуемая группа.

Необходимо очень внимательно подходить к составлению выборки в испытуемых в эмпирическом исследовании. Важно учитывать пол, возраст, социальное положение, уровень образования, состояние здоровья, индивидуально-психологические особенности испытуемых и другие параметры, которые могут оказать влияние на результаты.

Выделяют два основных типа выборки: вероятностную (построенную на математических и статистических расчетах) ицелевую (заданную целью исследования и определяемую доступностью, типичностью и равным представительством испытуемых).

В строгом понимании репрезентативной может быть только вероятностная выборка, т.к. она соответствует принципу рандомизации: одинаково равной вероятности попадания каждого члена генеральной совокупности в выборочную совокупность. Существуют следующие виды вероятностной выборки: простая, случайная, систематическая, стратифицированная, кластерная, многоступенчатая .

Чаще всего в психологических исследованиях применяют целевой отбор, используют целевую выборку. Критериями для построения целевой выборки являются: доступность, типичность, равное представительство. В связи с этим можно выделить следующие виды выборки по принципу целевого отбора: выборка на основании принципа доступных случаев; отбор критических, либо типичных случаев; выборка, построенная на основании метода «снежного кома»; квотная выборка.

Выборка на основании принципа доступных случаев – наиболее распространенный вариант выборки испытуемых. Применяется при изучении больших по численности групп испытуемых, не обладающих уникальными, специфическими параметрами.

Выборка по принципу отбора критических, либо типичных случаев , построенана основаниитеоретических представлений или предшествующего эмпирического опыта исследователя. Из всей обследуемой совокупности испытуемых отбираются те, которые обладают необходимыми специфическими характеристиками.

Пример: Выборку исследования составляют родители, которыми ситуация поступления их ребенка в школу оценивается как стрессовая.

Выборка, построенная по методу «снежного кома» или методу «редких» совокупностей . Первоначально опрашиваются один или несколько человек интересующей исследователя выборочной совокупности, которые в дальнейшем служат источниками информации о других членах данной совокупности. Выборка расширяется в геометрической прогрессии, подобно формирующемуся «снежному кому». Данный метод применяется тогда, когда испытуемые по различным причинам не афишируют свою принадлежность к той или иной группе людей.

Пример: Выборку составляют ученые, исследования которых касаются узкой научной проблемы.

Квотная выборка связана с разбиением изучаемой совокупности на подгруппы на основании социально-демографических или иных характеристик, которые являются важными для проведения исследования. Опираясь на известные пропорции определенных групп в генеральной совокупности, исследователь выделяет «квоту» для каждой обследуемой подгруппы. (Социально-демографические данные можно найти в статистических сборниках, выпускаемых ежегодно отделами статистики регионов).

Пример: Выборка исследования включает мужчин и женщин предпенсионного возраста – 50-60 лет. По статистике мужчины данного возраста составляют 46%, а женщины – 54 % генеральной совокупности. Следовательно, при общей численности выборки 100 человек должно быть обследовано не менее 46 мужчин и 54 женщин.

Одни из важных вопросов психологического исследования является вопрос объема выборки испытуемых , который должен обеспечивать доказательность выводов научного исследования. Исходя из методов математической обработки, к объему выборки предъявляются следующие требования:

Наибольший объем выборки необходим при разработке диагностической методики – от 200 до 1000-2500 человек.

При сравнении двух выборок, их общая численность должна быть не менее 50 человек. При этом численность сравниваемых выборок должна быть примерно одинаковой.

При изучении взаимосвязи между свойствами, чертами и т.п. объем выборки должен быть не меньше 30-35 человек.

Если для обработки данных применяется факторный анализ, важно помнить, что надежные факторные решения можно получить лишь в том случае, если количество испытуемых превышает число регистрируемых переменных в три и более раз.

Чем больше изменчивость изучаемого свойства, тем больше объем выборки. Изменчивость можно уменьшить, увеличивая однородность выборки, например, по полу, возрасту и т.д. Но возможности распространения выводов исследования на генеральную совокупность уменьшатся.

Целесообразно увеличение количества испытуемых на 5-10 % по сравнению с планируемым, так как часть полученных бланков будет отбракована в ходе исследования (не поняли инструкцию, не приняли задачу, дали отклоняющиеся результаты и т.п.) .

Зависимые и независимые выборки

Часто исследование строится таким образом, что свойство, интересующее исследователя, изучается на двух или более выборках с целью их дальнейшего сравнения. Эти выборки могут находиться в различных соотношениях – в зависимости от цели и задач исследования.

Независимые выборк и характеризуются тем, что вероятность отбора любого испытуемого из одной выборки не зависит от отбора любого испытуемого другой выборки.

Зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки.

Пример 1: Зависимые выборки – два ряда значений, полученных при обследовании одной и той же группы испытуемых: измерено состояние какого-либо свойства «до» и «после» экспериментального воздействия.

В этом случае выборки (одна – «до», другая – «после» воздействия) зависимы в максимально возможной степени, так как они включают одних и тех же испытуемых.

Пример 2: Зависимые выборки: мужья – 1 выборка, жены – 2 выборка.

Пример 3: Зависимые выборки: дети 5-7 лет – 1 выборка, их братья и сестры – 2 выборка.

В примерах 2,3 представлены варианты менее зависимых выборок.

В общем случае зависимые выборки предполагают попарный подбор испытуемых в сравниваемые выборки, а независимые выборки – независимый отбор испытуемых .

6. Виды статистических группировок, их познавательное значение.

7.Статистические таблицы: виды, правила построения, приемы чтения

8.Абсолютные величины: виды, познавательное значение. Условия научного использования абсолютных и относительных показателей.

9. Средние величины: содержание, типы, виды, научные условия применения.

11.Свойства дисперсии. Правило сложения (разложения) дисперсии и его использование в статистическом анализе.

12.Виды статистических графиков по содержанию решаемых задач и способам построения.

13. Ряды динамики: виды, показатели анализа.

14. Методы выявления тенденции в динамических рядах.

15. Индексы: определение, основные элементы индексов, задачи, решаемые при помощи индексов, система индексов в статистике.

16. Правила построения динамических и территориальных индексов.

17. Основы теории выборочного метода.

18. Теория малых выборок.

19. Способы отбора единиц в выборочную совокупность.

20.Виды связей, статистические методы анализа взаимосвязей, понятие корреляции.

21.Содержание корреляционного анализа, корреляционные модели.

22.Оценка силы (тесноты) корреляционной связи.

23. Система показателей социально-экономической статистики.

24. Основные группировки и классификации в социально-экономической статистике.

25. Национальное богатство: содержание категории и состав.

26. Содержание земельного кадастра. Показатели состава земель по формам собственности, целевому назначению и видам угодий.

27. Классификация основных фондов, способы оценки и переоценки, показатели движения, состояния и использования.

28. Задачи статистики труда. Понятие и содержание основных категорий рынка труда.

29. Статистика использования рабочей силы и рабочего времени.

30. Показатели производительности труда и методы анализа.

31. Показатели производства продукции растениеводства и урожайности с.-х. Культур и угодий.

32.Показатели производства продукции животноводства и продуктивности сельскохозяйственных животных.

33.Статистика общественных затрат и себестоимости продукции.

34.Статистика оплаты труда и расходов на рабочую силу.

35.Статистика валовой продукции и доходов.

36.Показатели движения и реализации продукции сельского хозяйства.

37.Задачи статистического анализа сельскохозяйственных предприятий.

38.Статистика цен и товаров отраслей народного хозяйства: задачи и методы анализа.

39.Статистика рынка товаров и услуг.

40.Статистика показателей общественного производства.

41.Статистический анализ цен потребительского рынка.

42.Статистика инфляции и основные показатели ее оценки.

43.Задачи статистики финансов предприятий.

44.Основные показатели финансовых результатов предприятий.

45.Задачи статистики государственного бюджета.

46. Система показателей статистики государственного бюджета.

47. Система показателей статистики денежного обращения.

48. Статистика состава и структуры денежной массы в стране.

49. Основные задачи банковской статистики.

50.Основные показатели банковской статистики.

51.Понятие и классификация кредита. Задачи его статистического изучения.

52.Система показателей статистики кредита.

53.Основные показатели и методы анализа сберегательного дела.

54.Задачи статистики фондового рынка и ценных бумаг.

56.Статистика товарных бирж: задачи и система показателей.

57.Система национальных счетов: понятия, основные категории и классификация.

58.Основные принципы построения снс.

59.Основные макроэкономические показатели – содержание, методы определения.

60.Межотраслевой баланс: понятия, задачи, виды моб.

62.Статистика доходов и расходов населения

18. Теория малых выборок.

При большом числе единиц выборочной совокупности (n >100) распределение случайных ошибок выборочной средней в соответствии с теоремой А.М.Ляпунова нормально или приближается к нормальному по мере увеличения числа наблюдений.

Однако в практике статистического исследования в условиях рыночной экономики все чаще приходится сталкиваться с малыми выборками.

Малой выборкой называется такое выборочное наблюдение, численность единиц которого не превышает 30.

При оценке результатов малой выборки величина генеральной совокупности не используется. Для определения возможных пределов ошибки пользуются критерием Стьюдента.

Величина σ вычисляется на основе данных выборочного наблюдения.

Данная величина используется лишь для исследуемой совокупности, а не в качестве приближенной оценки σ в генеральной совокупности.

Вероятностная оценка результатов малой выборки отличается от оценки в большой выборке тем, что при малом числе наблюдений распределение вероятностей для средней зависит от числа отобранных единиц.

Однако для малой выборки величина коэффициента доверия t по другому связана с вероятностной оценкой, чем при большой выборке (так как, закон распределения отличается от нормального).

Согласно установленному Стьюдентом закону распределения, вероятная ошибка распределения зависит как от величины коэффициента доверия t , так и от объема выборки В.

Средняя ошибка малой выборки вычисляется по формуле:

где - дисперсия малой выборки.

В МВ коэффициент n/(n-1) нужно брать во внимание и обязательно корректировать. При определении дисперсии S2 число степеней свободы равно:

Предельная ошибка малой выборки определяется по формуле

При этом значение коэффициента доверия t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по специальным таблицам Стьюдента, в которых даны распределения стандартизированных отклонений:

Вероятностная оценка результатов МВ отличается от оценки в БВ тем что при малом числе наблюдений распределение вероятностей для средней зависит от числа отобранных единиц

19. Способы отбора единиц в выборочную совокупность.

1. Выборочная совокупность должна быть достаточно большой по численности.

2. Структура выборочной совокупности должна наилучшим образом отражать структуру гнеральной совокупности

3. Способ отбора должен быть случайным

В зависимости от того участвуют ли отобранные единицы в выборке различают метод - бесповторный и повторный.

Бесповторным называется такой отбор, при котором попавшая в выборку единица не возвращается в совокупность, из которой осуществляется дальнейший отбор.

Расчет средней ошибки бесповторной случайной выборки:

Расчет предельной ошибки бесповторной случайной выборки:

При повторном отборе попавшая в выборку единица после регистрации наблюдаемых признаков возвращается в исходную (генеральную) совокупность для участия в дальнейшей процедуре отбора.

Расчет средней ошибки повторной простой случайной выборки производится следующим образом:

Расчет предельной ошибки повторной случайной выборки:

Вид формирования выборочной совокупности подразделяется на - индивидуальный, групповой и комбинированный.

Способ отбора – определяет конкретный механизм выборки единиц из генеральной совокупности и подразделяется на: собственно – случайный; механический; типический; серийный; комбинированный.

Собственно – случайный наиболее распространенный способ отбора в случайной выборке, его еще называют методом жеребьевки, при нем на каждую единицу статистической совокупности заготовляется билет с порядковым номером. Далее в случайном порядке отбирается необходимое количество единиц статистической совокупности. При этих условиях каждая из них имеет одинаковую вероятность попасть в выборку.

Механическая выборка . Применяется в тех случаях, когда генеральная совокупность каким – либо образом упорядочена т. е. имеется определенная последовательность в расположении единиц.

Для определения средней ошибки механической выборки используется формула средней ошибки при собственно – случайном бесповторном отборе.

Типический отбор . Используется когда все единицы генеральной совокупности можно разбить на несколько типических групп. Типический отбор предполагает выборку единиц из каждой группы собственно – случайным или механическим способом.

Для типической выборки величина стандартной ошибки зависит от точности определения групповых средних. Так, в формуле предельной ошибки типической выборки учитывается средняя из групповых дисперсий, т.е.

Серийный отбор . Применяется в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. Сущность серийной выборки заключается в собственно случайном либо механическом отборе серий, внутри которых производится сплошное обследование единиц.

При серийной выборке величина ошибки выборки зависит не от числа исследуемых единиц, а от числа обследованных серий (s) и от величины межгрупповой дисперсии:

Комбинированный отбор может проходить одну или несколько ступеней. Выборка называется одноступенчатой, если отобранные однажды единицы совокупности подвергаются изучению.

Выборка называется многоступенчатой , если отбор совокупности проходит по ступеням, последовательным стадиям, причем каждая ступень, стадия отбора имеет свою единицу отбора.