Генеральная совокупность

Содержание

Методы статистики. Количественные и качественные признаки

Количественные и качественные признаки

Графическое представление данных.

Статистические таблицы

Стадии статистического исследования.

Методы статистики. Статистическое исследование и статистическое наблюдение

Количественные и качественные признаки.

План лекции

Лекция № 2. .

Предметом статистики является количественная сторона процессов и явлений в неразрывной связи с их качественной стороной, количественное выражение закономерностей процесса в конкретных условиях места и времени.

Объектом исследования статистики является статистическая совокупность.

Статистическая совокупность – множество объективно существующих во времени и пространстве, однородных в определенном отношении процессов и явлений. Статистическая совокупность представлена единицами совокупности — индивидуальными элементами, являющимися носителями изучаемых признаков.

Признак – это свойство, характерная черта единицы статистической совокупности, которое может быть определено или измерено.

Все признаки, по своей сути и по способу выражения, делятся на качественные и количественные.

Качественный признак – это признак, отдельные варианты которого выражаются в виде понятий или наименований.

Качественный признак может быть представлен в виде альтернативного или формального признака.

Альтернативный признак – признак, имеющий два противоположных значения (например качественная продукция — некачественная продукция).

Формальный признак – признак, по сути относимый к качественному, но представленный числом (например, успеваемость студентов можно представить формальным признаком 2, 3, 4, 5).

Количественный признак – это признак, отдельные варианты которого различаются по величине, т.е. варьируют.

Вариация – колеблемость, многообразие величины признака у отдельных единиц совокупности.

Признак единиц изучаемой совокупности относится к числу основных категорий статистики, которые составляют ее язык.

Отдельные единицы имеют одинаковые значения признаков. Количество единиц совокупности, имеющих одинаковое значение признака, называют частотой признака.

Любое статистическое исследование, как и сам язык статистики, требует своих приемов и правил.

Метод статистики можно определить как совокупность приемов, применяемых для познания предмета исследования и основанных на общенаучных и логических категориях.

Методы статистики включают общенаучные методы и специфические.

К общенаучным методам, применяемым статистикой и обогащающим ее специфические приемы, относятся сравнения, анализ и синтез, методы индукции и дедукции, аналогия, гипотеза.

Статистика опирается в своих исследованиях и на законы диалектической и формальной логики. Использует законы объективной взаимосвязи и взаимообусловленности явлений окружающего мира, перехода количественных изменений в качественные, единства и борьбы противоположностей, соотнесения их как общее и единичное и т.п.

Общенаучные и логические законы мышления и познания объективного мира служат основой для разработки специфических приемов и методов, совокупность которых и составляет метод статистики.

Специфическими методами и приемами статистики выступают:

статистическое наблюдение,

статистические сравнения,

метод сводки и группировки,

индексный метод,

корреляционно-регрессионный анализ,

метод рядов динамики,

метод статистических расчетов и статистических показателей.

Статистический показатель представляет собой обобщенную количественную характеристику общественных явлений и процессов в их качественной определенности в условиях конкретного места и времени. Каждый показатель имеет качественную и количественную стороны.

Качественная сторона отражает модель расчета показателя, его общее содержание безотносительно к конкретному размеру. Количественная сторона характеризует конкретный размер показателя, его величину.

Количественная определенность изучаемых статистикой явлений и процессов находит свое выражение в абсолютных и относительных размерах (величинах).

Абсолютная величина явления представляет собой его размер безотносительно к размерам других явлений.

Абсолютная величина выражает естественную основу явления, его свойство, поэтому имеет единицу измерения. В зависимости от единиц измерения абсолютные величины принято делить на три типа:

натуральные (включая чисто натуральные, комбинированные и условно-натуральные), единицами измерения которых выступают единицы физических мер весов;

денежные (стоимостные), измеряемые в рублях;

трудовые, измеряемые в единицах измерения затрат труда (человеко-день, станко-час и т.п.).

Относительные величины представляют собой соотношения, сравнения двух величин.

При проведении статистического исследования принято выделять следующие последовательные стадии:

1 стадия – статистическое наблюдение. Цель этой стадии- сбор достоверной и полной информации об изучаемой совокупности.

2 стадия – сводка и группировка. Основная цель состоит в систематизации данных, собранных в процессе статистического наблюдения.

3 стадия – анализ и обработка статистических данных.

4 стадия – обобщение, оформление и представление информации.

§2. Признаки единиц статистической совокупности, их классификация.

ЕСС обладают определенными свойствами которые называются признаками. Статистика изучает явления через их признаки, чем более однородна совокупность тем больше общих признаков имеют ее единицы и тем меньше варьируют значения этих признаков.

  1. Описательный признак – признак, который может быть выражен только словесно.

  2. Количественный признак – признак, который может быть выражен численно.

  3. Прямой признак – свойство непосредственно присуще характерному объекту.

  4. Косвенный признак – свойства не самого характеризуемого объекта, а объекта связанного с ним либо входящих в него.

  5. первичный признак – абсолютная величина, может быть измерен.

  6. вторичный признак – результат сопоставления первичных признаков, он измеряется непосредственно.

  7. натуральный признак – измеряется в штуках, кг, тоннах, литрах и т.д.

  8. трудовой признак – измеряется в человеко-днях, человеко-часах.

  9. стоимостной признак — измеряется в рублях, $, €, ₤.

  10. безразмерный признак – измерение в долях, %

  11. альтернативный признак – признак, который принимает только одно значение из нескольких возможных.

  12. дискретный признак – принимает только целое значение, без промежуточного.

  13. непрерывный признак – признак, принимающий любые значения в определенном диапазоне.

  14. факторный признак – признак, под действием которого изменяется другой признак.

  15. результативный признак – признак, который изменяется под признаком другого

  16. моментный признак – признак, измеренный на определенный момент времени.

  17. интервальный признак – признак за определенный интервал времени.

Один и тот же признак может быть классифицирован одновременно по разным классификациям.

§3. Предмет и метод статистики.

Предметом статистического исследования являются статистические совокупности – множество одно-качественных варьирующих предметов.

Специфика предмета статистики обуславливает специфику метода, они включают в себя:

  1. сбор данных (статистическое наблюдение, публикация)

  2. обобщение данных (сводка, группировка)

  3. представление данных (таблицы и графики)

  4. анализ и интерпретация числовых данных (расчет средних, вариационных анализ, КРА, ряды динамики, индексы)

тема 2: Организация статистического наблюдения.

Сводка и группировка данных.

§1. Понятие статистического наблюдения, его подготовка.

§2. Виды статистического наблюдения.

§3 Ошибки наблюдения.

§4 Сводка и группировка

§5 Виды статистических группировок.

§6 Статистические таблицы.

§7 Статистические графики.

§1. Понятие статистического наблюдения, его подготовка.

Любое статистическое исследование начинается со сбора данных.

Источники информации:

  1. различные публикации (газеты, журналы, и т.д.)

  2. главный источник опубликованной статистической информации – издания органов государственной статистики («РФ в 2001 году» издательство ГОСКОМСТАТ).

  3. проведение статистического наблюдения, т.е. научно организованного сбора данных.

Статистическое наблюдение – массовое, плановое , научно организованное наблюдение за явлением социальной и экономической жизни, которая заключается в регистрации признаков у каждой единицы изучаемой совокупности.

Процесс проведения наблюдения:

  1. Подготовка к наблюдению

  2. Проведение массового сбора данных

  3. Подготовка данных к обработке

  4. Разработка предложений по совершенствованию статистического наблюдения.

Подготовка наблюдения:

  1. Определение цели и объекта наблюдения

  2. Определение состава признаков подлежащих регистрации

  3. Разработка документов для сбора данных

  4. Выбор отчетной единицы и единицы относительно которой будет проводится наблюдение.

  5. Необходимо определить методы и средства получения данных.

Необходимо решить организационные проблемы:

  1. необходимо определить состав служб проводящих исследование

  2. проинструктировать персонал

  3. составить календарный план работы

  4. провести тиражирование документов для сбора данных

Объектом наблюдения являются социально-экономические явления и процессы.

Необходимо четко выделить признаки для регистрации.

Программа наблюдения – перечень признаков подлежащих регистрации признаков в процессе наблюдения.

Требования к программе наблюдения:

  1. Программа должна содержать существенные признаки, непосредственно характеризующие изучаемое явление, не следует включать в программу признаки, имеющие второстепенные явления или признаки, значения которых будут заведомо недостоверны или будут вообще отсутствовать.

  2. Вопросы программы наблюдения должны быть точными и не двусмысленными, а также легкими для понимания во избежании трудностей при получении ответов.

  3. Следует определить последовательность вопросов.

  4. В программу наблюдения следует включать вопросы непосредственного характера для проведения и уточнения собираемых данных.

  5. для обеспечения единообразия получаемых сведений программа оформляется в виде документа – называемый статистическим формуляром.

Статистический формуляр — это документ единого образца содержащий программу и результаты наблюдений.

Различают индивидуальный формуляр (ответы на вопросы по одной единице наблюдения) и списанный (сведения по нескольким единицам статистической совокупности).

Формуляр и инструкция по его заполнению являются инструментарием статистического наблюдения.

Выбор времени наблюдения заключается в решении 2хвопросов: установлении критической даты либо интервала, определением периода наблюдения.

Критическая дата – конкретный день года, час дня по состоянию на который должны быть зарегистрированы признаки по каждой единице изучаемой совокупности.

Период наблюдения – время в течении которого происходит заполнение статистических формуляров т.е. время необходимое для сбора данных.

Следует учитывать, что отдаление периода наблюдения от критической даты или интервала может привести к снижению достоверности получаемых сведений.

Генеральная и выборочная совокупности в социологических исследованиях

Выборка − это метод исследования, когда из общей изучаемой (генеральной) совокупности однородных единиц отбирается некоторая ее часть (выборочная совокупность) и только эта часть подвергается обследованию.

Процедуры выборки:

1) определение слоев и групп населения, на которые предполагается распространить полученные результаты опроса (генеральная совокупность);

2) определение численности опрашиваемых, необходимой и достаточной для репрезентации генеральной совокупности

3) определение правила поиска и отбора респондентов на последней стадии выбора.

Обычно социологи используют в своих исследованиях случайную выборку. При случайной выборке исследователи осуществляют произвольный отбор объектов исследования с применением либо случайных чисел, либо систематической выборки. Случайные числа используются для обеспечения равного шанса каждому индивидууму в структуре выборки (например, в списках избирателей, почтовых адресов) быть отобранным в качестве члена выборки. Систематическое проведение таких исследований предполагает беспорядочный отбор первого индивидуума из списка, затем последующих в любом из установленных интервалов (например, каждого десятого или двадцатого избирателя). Если выборочная совокупность слишком велика, проводится квотная выборка, предполагающая разбивку ее на страты по полу, возрасту, социальному классу, месту жительства. А затем в каждой страте проводится случайная выборка.

Генеральная и выборочная совокупности. Понятие репрезентативности.

Большинство социологических исследований имеет не сплошной, а выборочный характер: по строгим правилам отбирается определенное количество людей, отражающих по социально-демографическим признакам структуру изучаемого объекта. Такое исследование именуется выборочным. Выборочное обследование представляет способ систематического сбора данных о поведении и установках людей посредством опроса специально подобранной группы респодентов, дающих информацию о себе и о своем мнении. Оно является более экономичным и не менее надежным, чем сплошное обследование, хотя требует изощренной методики и техники. Его основа – выборочная совокупность, которая составляется на базе своей уменьшенной копии – генеральной совокупности.

Генеральная совокупность − совокупность всех изучаемых в ходе социологического исследования объектов.

Генеральной совокупностью считают все население или ту его часть, которую социолог намерен изучить. Генеральная совокупность – множество тех людей, сведения о которых стремится получить социолог в своем исследовании. В зависимости от того, насколько широкой будет тема исследования, настолько же широка будет генеральная совокупность.

Любое эмпирическое исследование осуществляется путем изучения некоей совокупности социальных объектов. Совокупность этих объектов − это генеральная совокупность, она представляется различным количеством людей (от десятков до миллионов). Если количество исследуемых объектов не позволяет нам (с учетом материально-финансовых возможностей) провести сплошное социологическое исследование, то мы прибегаем к выборочному методу. В этом случае генеральная совокупность представлена очень большим количеством людей (от пятисот и более). Теория этого метода заимствована из математической статистики: выборка − процесс формирования выборочной совокупности путем отбора из генеральной совокупности некоторого подмножества элементов, которое по исследуемым характеристикам отражает свойства генеральной совокупности. Элементы выборочной совокупности, которые изучаются, называются единицами наблюдения (анализа).

Свойство выборочной совокупности отражать исследуемые характеристики генеральной совокупности называется репрезентативностью. Очевидно, что абсолютно репрезентативную (отражающую по всем параметрам) выборку сформировать невозможно, но необходимо обеспечивать репрезентативность по основным направлениям исследования.

Любая выборочная совокупность требует определения ее типа, структуры и объема.

Выборочная совокупность – уменьшенная модель генеральной совокупности; те, кому социолог раздает анкеты, кто называется респондентами, кто, наконец, представляет собой объект социологического исследования. Иначе говоря, это множество людей, которых социолог опрашивает.

Полный и точный перечень единиц выборочной совокупности образует основу выборки. Элементы, предназначенные для отбора, называются единицами отбора.

Если основа выборки включает список единиц отбора, то структура выборки подразумевает их группировки по каким-то важным признакам, например, распределение индивидов по профессии, квалификации, полу и возрасту. Таким образом, структура выборки – это процентные пропорции признаков объекта, на основании которых составляется выборочная совокупность.

Перейти на страницу: 1 2

Тема: Введение. элементы математической статистики. Генеральная совокупность и выборка

ЛЕКЦИЯ 1

ТЕМА: ВВЕДЕНИЕ. ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ. ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА

Исследования и практические задачи в кадастре базируются на большом объеме количественной информации, которую необходимо объективно оценить и провести группировку или классификацию, доказать зависимость, провести моделирование, выявить оптимальные условия развития или установить пространственные закономерности развития объектов или явлений, дать прогноз их развития. Эти вопросы успешно решаются с помощью математических методов и соответствующих программ, разработанных для ПЭВМ. Исследователь или практик должен лишь четко сформулировать задачу, выбрать наиболее подходящий для конкретных условий математический метод анализа и дать объективную интерпретацию результатов.

Математика позволяет нам решать задачи частные и общие. В приложении приведены алгоритмы выполнения задания на ПЭВМ по важнейшим методам анализа.

Большинство методов статистического анализа универсальны и могут применяться в разнообразных отраслях деятельности человека.

Большинству природных и экономических явлений свойственна вариабельность (изменение в определенных пределах). Например, температура воздуха меняется ежечасно, ежедневно, ежемесячно, не постоянна прибыль предприятия. Однако многие хаотические явления имеют упорядоченную структуру, поэтому могут иметь конкретную оценку. Главное условие для этого – статистическая устойчивость этих явлений, которые можно описать математическими методами статистики.

По виду учетные признаки могут быть качественными или количественными. Качественные (описательные, атрибутивные) признаки характеризуют качество отдельных единиц совокупности (пол мужской и женский; образование начальное, среднее, высшее). Количественные признаки характеризуют числовые выражения (масса – кг, скорость – км/час). Аналитическая оценка взаимосвязи качественных и количественных признаков проводится только после разбиения количественных признаков на качественные группы.

Количественные методы анализа помогают выбрать ведущие факторы, причины, признаки

Математические методы позволяют широко использовать системный анализ, как наиболее совершенный. Любой объект исследования может быть представлен как система – определенный объект, состоящий из множества частей, которые взаимосвязаны не только между собой, но и с соседними объектами-системами. Установить целостность и структуру, иерархичность, величину и направленность связей в системе, их характер позволяют математические методы путем создания формализованных систем. Системный подход основан на исследовании объектов как систем, создает единую теоретическую модель. Системный анализ представляет собой совокупность методологических средств, позволяющих обосновать проблемы научно-практического характера. Успешное использование системного анализа возможно при реализации следующих важнейших принципов, опирающихся на математические методы: выявляется и формулируется конечная цель исследования; система-объект рассматривается как единое целое, в ней выявляются все взаимосвязи и их результаты; строится обобщенная комбинированная модель (модели), где отображаются структура, иерархия и взаимосвязи.

Выделяются две группы систем: материальные и абстрактные. Традиционные методы изучают материальные системы. Социальные системы через техногенез могут оказывать воздействие на природные. По развитию выделяют системы статичные (предприятия) и динамичные (ландшафт). Среди абстрактных систем на основе различных систематизирующих отношений можно выделить: функциональные (математическая модель), структурные (глобус), временные (прогноз погоды), геометрические (линия регрессии на графике).

Впервые математические методы в географии предложено было использовать в 20-е годы ХХ в. российскими географами В. П. Семеновым-Тян-Шанским и М. М. Про­тодьяконовым. Положительно отозвался о возможности применения математики в географии академик А. А. Григорьев в 1934 г. Пионером внедрения математики в географию является Д. Л. Арманд (1949). Первая работа, посвященная использованию математической статистики в географии, была опубликована В. А. Червяковым (1966).

ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Источником материала для статистической обработки могут быть собственные экспериментальные исследования, статистическая информация, аналитические данные других исследователей, фондовые материалы, литературные источники, географические карты, аэрофотоснимки. При изучении территориальных комплексов низших рангов (фаций, урочищ), промышленных предприятий, объектов сельскохозяйственного назначения наиболее ценными для статистической обработки являются материалы собственных исследований. При изучении объектов среднего ранга возрастает роль отраслевых и специальных карт вместе с авторскими данными и литературными источниками. Для исследования объектов высоких рангов (области, провинции, регионы) используются карты, литературные источники, обобщающие материалы по объектам более низких рангов.

1.2. Генеральная совокупность и выборка

Первичным элементом в статистике является единица наблюдения (варианта, дата): 3 4 3 4 3 3 3 3. Их ряд образуют статистическую совокупность, которая характеризует объект исследования. Большинство единиц наблюдения имеют вероятностный, случайный характер. По виду исследуемые признаки могут быть качественными и количественными. Количественные признаки имеют числовое выражение, качественные – словесное (образование начальное, среднее, высшее). Качественным признакам при статистической обработке присваивают балл или ранг соответственно их смыслу (начальное образование – 1 балл, среднее – 2, высшее – 3). Исследуемые признаки можно подразделить на факторные (факториальные) и результативные (результирующие); вторые изменяются под влиянием первых. Все единицы наблюдения, входящие в статистическую совокупность, объединены единством места и времени исследования.

Чрезмерное увеличение объема любой исходной информации ведет к увеличению «информационного шума» (погрешностей), который подавляет искомую исследователем информацию. Это отражается на вариабельности (изменчивости, случайности) процессов и явлений.

По времени наблюдение может быть текущим (непрерывным) и единовременным (в один и тот же момент времени в разных точках – метеонаблюдения на постах). По охвату исследование может быть сплошное и не сплошное. Эта особенность определяет ход и методику статистического анализа.

Сплошное статистическое исследование (перепись всего населения республики) образует генеральную совокупность. Общее число членов генеральной совокупности называют объемом генеральной совокупности. Выборка образует совокупность наблюдений, полученных с целью объективной характеристики и получения информации о генеральной совокупности. Число ее членов называют объемом выборочной совокупности.

Выборка может быть представлена следующими основными типами отбора: случайным, направленным (типическим), смешанным.

При случайном отборе все объекты имеют одинаковую возможность попасть в выборку. В его основе лежит перемешивание. Случайная выборка может не отвечать условиям исследования из-за неоднородности. Тогда производят целенаправленный (когортный) отбор, выбирая для исследования типичные объекты. Правила отбора остаются те же, что и при случайном отборе.

Смешанный отбор производят в тех случаях, когда необходимо дать характеристику неоднородного объекта. Например, холмисто-моренный ландшафт делят фации с однородными условиями, в каждой из которых производят случайный отбор. Полученные результаты объединяют в одну выборку.

Соблюдения правил составления выборки дают возможность наиболее полно и точно, т. е. репрезентативно, характеризовать генеральную совокупность. Величина ошибки репрезентативности зависит от изменчивости изучаемого признака. Чем больше разброс значений изучаемого признака, тем больше статистическая ошибка. Отбор для выборки должен быть также научно обоснованным с учетом принятых методических правил, т. е. рендомизированным.

На втором этапе статистического исследования проводят сводку и группировку данных. Типологическая группировка выделяет в совокупности качественно однородные в существенном отношении группы. Группировка по своей сути представляет собой процесс классификации. В государственной статистике используют классификаторы – специальные справочники, инструкции, указания.

Самым сложным является определение объема наблюдений в исследованиях. В большинстве случаев достаточно точные результаты получают при объеме выборки около 100. Оптимальный объем выборки обычно пропорционален степени изменчивости признака. Если признак сильно изменяется, то количество измерений следует увеличить. Чаще всего ориентировочный объем (N) выборочной совокупности рассчитывают по формулам, в которых вероятность заменяют степенью варьирования:

N = σ2 / m2М ,

где σ – среднее квадратическое отклонение; mМ – ошибка среднего арифметического.

Допустим, варьирование признака (колебание температуры) составляет 7 °С, тогда число наблюдений выборочной совокупности с ошибкой среднего арифметического m = ± 0,5 °С составит: N = σ2 / m2М = 72 / 0,52 = =196.

Объем выборочной совокупности можно также определить по ожидаемому коэффициенту вариации (V) и точности опыта (р) с учетом поправочного коэффициента (1,96) для уровня вероятности 0,95 и 0,99:

N = (1,96 · V)2 / р2.

Пример. Для расчета коэффициента увлажнения в зависимости от количества выпадающих осадков и испарения с ожидаемой точностью опыта 3 % и коэффициента вариации 30 % потребуется следующий объем выборочной совокупности N = (1,96 · 30)2 / 32= 384.

Определение объема выборочной совокупности необходимо для получения достоверной информации о генеральной совокупности путем расчета минимального, но объективного количества наблюдений. Полученные параметры по выборке могут служить приблизительными оценками аналогичных параметров генеральной совокупности, т. е. указывать пределы в которых они заключены (М ± mМ; σ ± mσ).

1.2. Обработка вариационного ряда

Варианты в статистической совокупности подвергаются обработке. Для этого составляется вариационный ряд, т. е. варианты располагают по возрастающим или убывающим величинам. Варианты в выборке, относящиеся к одному и тому же признаку, практически не совпадают между собой, или варьируют. Те варианты, которые резко отличаются от вариантов статистической совокупности и вызывают сомнение у исследователя определяются как артефакт. Они располагаются в начале или в конце вариационного ряда. Артефакт исключается из статистической совокупности и не подлежит обработке. Например, в приведенных вариационных рядах: 2, 9, 11, 12, 13, 15 и 25, 27, 29, 32, 55 почти все соседние показатели весьма близки по значению. Вызывают сомнение варианты 2 в первом ряду и 55 во втором. Их можно принять за артефакт и исключить (выбраковать) из обработки. Выбраковка должна быть статистически доказана.

Существующие критерии выбраковки основываются, как правило, на допущении, что выборка распределяется по нормальному или близкому к нему закону. В качестве критерия выбраковки может быть использован критерий τ (прил. 3). Если критерий τ вычисленный (фактический) больше или равен критерию τ табличному (τф ≥ τт) при объеме выборки N и уровне значимости α (0,05 или 0,01), то соответствующие значения вариантов выборки (х) допустимо отбросить как артефакт. Значения τ для вызывающей сомнение величины вычисляются по следующим формулам:

τ1 = (х2 – х1) / (хn–1 – х1) (1.1)

для наименьшего значения переменной величины в вариационном ряду (х1);

τn = (хn – хn–1) / (хn – х2) (1.2)

для максимального значения переменной в вариационном ряду.

Пример. При составлении вариационного ряда по урожайности сельскохозяйственных культур в разрезе хозяйств одного из районов получен следующий ряд значений: 10,8; 12,5; 12,9; 13,2; 20,2 (ц/га). Вызывает сомнение максимальное значение в выборке варианты 20,2. Следует доказать, можно ли ее отнести к артефакту. Подставляем необходимые данные в формулу 1.2:

τ5 = (х5 – х4) / (х5 – х2) = (20,2 – 13,2) / (20,2 – 12,5) = 0,958.

Вычисленное значение критерия (τ5 = 0,958) сравнивают с табличным значением (τт), учитывая объем выборки (N = 5). В прил. 3 критическое значение критерия артефакта для N = 5 и уровня значимости α 0,05 и 0,01 соответственно будут равны 0,807 и 0,916, что меньше расчетного значения (τ5 = 0,958). Поэтому варианту 20,2 признают артефактом и исключают из статистической обработки как сомнительную. Затем приступают к вычислению показателей описательной статистики при условии, что тип распределения вариант соответствует нормальному или логнормальному закону распределения. В иных случаях с выборкой работают как с непараметрической, на которые теория вероятности не распространяется.

При установлении типа распределения принимается следующий порядок действий. Сначала определяется величина классового интервала i, которая зависит от принятого числа классов k и объема выборки N:

i = (хmax – xmin) / k. (1.3)

Число классов в зависимости от объема выборки определяется по формуле:

k = 1 + 3,3 lg N. (1.4)

Исходя из формулы (1.4), можно рекомендовать следующее число классов в зависимости от объема выборки:

30–50

51–10

101–400

401–1000

1001–2000

4–5

6–7

8–9

9–10

11–12

Величина классового интервала должна быть одинаковой на протяжении всего вариационного ряда. Границы классов выбираются такими, чтобы каждая варианта могла быть отнесена только к одному классу. Примеры правильной границы классов: 5–9, 10–14, 15–19 или 5,1–9,1, 9,2–13,2, 13,3–17,3, первый и последний классы могут быть неполными. Границы классов желательно выбирать так, чтобы крайние варианты ряда по возможности оказались ближе к середине интервала своего класса.

Пример. Пусть в выборке объемом N = 64 по количеству осадков за время наблюдения хmax = 179 мм, xmin = 103 мм. Согласно формуле (1.4), вариационный ряд разбиваем на 8 классов. Затем находим классовый интервал:

i = (179 – 103) / 8 = 9,5, или округленно 10.

Исходя из величины классового интервала и минимального значения в выборке, за начало левой границы первого класса удобно принять величину 100. Прибавляя к 100 классовый интервал 10, получаем левые границы последующих классов: 110, 120, 130, 140, 150, 160, 170 мм. Правые границы классов должны отличаться на единицу точности наблюдения от левой границы следующего класса, чтобы граничные значения вариант были отнесены к определенному классу. В нашем примере точность измерения составляет 1,0 мм, поэтому правые границы классов будут следующими: 109, 119, 129, 139, 149, 159, 169, 179 (табл. 1.1).

Срединное значение класса (х) вычисляем путем сложением границ классов и делением суммы на два. Для первого класса срединное значение равно: (100 + 109) / 2 = 104,5. Срединное значение последующих классов определяется путем последовательного прибавления классового интервала к срединному значению предыдущего класса: 104,5 + 10= =114,5.

Затем производим разноску вариант по классам (подсчитываем количество вариант, вошедших в тот или иной класс в зависимости от их абсолютных величин). Получаем частоту (f) класса (см. табл. 1.1). Сумма частот должна соответствовать объему выборки (64), сумма частостей fч (частота, выраженная в процентах) должна равняться 100 %.

Таблица 1.1

Группировка вариант в классы при дискретной изменчивости признака

Границы класса

Середина класса, х

Частота, f

Частость, fч, %

100–109

104,5

9,37

110–119

114,5

15,62

120–129

124,5

18,75

130–139

134,5

21,87

140–149

144,5

15,62

150–159

155,5

9,37

160–169

165,5

6,25

170–179

175,5

3,12

i = 10

k = 8

N = 64

∑ 100,00

По частоте и середине класса представим вариационный ряд графически в виде полигона и кривой распределения частот (рис. 1.1).

Рис. 1.1. Способы графического представления вариационного ряда:

кривая распределения и гистограмма

При построении вариационной кривой по оси абсцисс откладываются значения середины класса, по оси ординат – частоты. При построении гистограммы по оси абсцисс откладываются границы классов, а число вариант каждого класса обозначается высотой или площадью соответствующего прямоугольника. При сравнении изменчивости одинаковых условий или признаков полученные вариационные кривые распределения частот наносятся на один график. Группировка вариант в классы для сравниваемых выборок должна быть одинаковой. Если объем выборок не одинаков, все частоты должны быть выражены в процентах от объема выборки по каждой совокупности.

Показатели асимметрии и эксцесса. Распределение частот в изучаемом объекте не всегда подчиняется закону нормального распределения. Это особенно четко проявляется при выражении вариационного ряда в виде графика. Распределение частот может быть представлено асимметричной, островершинной или туповершинной кривой.

Асимметрия кривой распределения обусловлена неравномерным размещением вариант по обе стороны от модального значения признака. Если число вариант больше справа от моды, распределение имеет положительную асимметрию, если слева – отрицательную (рис. 1.2).

Рис. 1.2. Асимметричное распределение:

а – отрицательная асимметрия, б – положительная асимметрия

При получении асимметричной кривой следует проверить асимметричность распределения. Если асимметричность не будет доказана по критерию Стьюдента, то рассматриваемое распределение относят к симметричному. Для проверки асимметричности распределения вычисляют коэффициент асимметрии, его ошибку, затем на основании показателя достоверности устанавливают вид кривой распределения. Коэффициент асимметрии находят:

Kas = (M – Mo) / σ, или Kas = (M – Me) / σ.

Пример. При изучении содержания подвижного бора в дерново-подзолистых почвах были получены следующие показатели: М = 0,25 мг/кг, Мо = 0,28, σ = 0,02, N = 20. Для получения представления о форме кривой распределения бора предварительно вычисляем коэффициент асимметрии:

Кas = (0,25 – 0,28) / 0,02 = –1,5.

Полученная величина указывает на наличие отрицательной асимметрии в распределении вариант содержания подвижного бора в дерново-подзолистых почвах. Затем находим ошибку коэффициента асимметрии:

mas = 1= ) = 0,51.

Достоверность коэффициента асимметрии определяется по критерию Стъюдента: t = Kas / mas = –1,5 / 0,51 = –2,94.

Величина критерия Стьюдента (см. прил. 4) для Р0,99 при ν→∞ составляет 2,58 (число степеней свободы принимается равным бесконечности). Рассчитанный критерий Стьюдента (2,94) больше табличного для Р0,99 (2,58), что указывает на асимметричность распределения подвижного бора. Если бы расчетная величина критерия Стьюдента была меньше табличной, то распределение отнесли бы к симметричному даже при наличии незначительной асимметрии.

Эксцесс кривой распределения (Е) имеет место в тех случаях, когда большинство вариантов совокупности сосредоточено около среднего арифметического. Тогда эмпирическая кривая распределения отклоняется от нормальной теоретической кривой у ее вершины и количественно выражается показателем эксцесса (рис. 1.3).

Положительный эксцесс представлен островершинной кривой (эксцессивной, или лептокуртичной) (см. рис. 1.3, а), отрицательный – плосковершинной (депрессивной, или платикуртичной) (см. рис. 1.3, б). При сильном отрицательном эксцессе кривая может приобрести вид двухвершинной

Рис. 1.3. Эксцесс кривой распределения положительный (а) и отрицательный (б):

1 – теоретическая линия распределения, 2 – эмпирическая линия распределения

Показатель эксцесса определяется по формуле:

E = – 3.

Вычисляют ошибку коэффициента эксцесса: mE = 2

Оценка достоверности показателя эксцесса производится аналогично оценке показателя асимметрии по критерию Стьюдента: t = E / mE.

Оценить достоверность показателей эксцесса и асимметрии можно более простым способом. Отклонение эмпирического ряда по асимметрии и эксцессу от нормального распределения считают существенным, если Kas и Е более, чем в 3 раза превышают свои ошибки (mas, mE). Если показатель эксцесса меньше –2, это указывает на наличие в выборке вариант, относящихся к разным совокупностям. Эксцесс считается незначительным, если |E| < 0,4. Чем меньше показатель эксцесса, тем ближе распределение к нормальному.

Асимметрия и эксцесс эмпирических кривых указывают иногда на важные особенности объекта исследования, например, на изменение признака в ходе усовершенствования технологии на предприятии при выпуске той же продукции. В таких случаях изучение степени и характера асимметрии и эксцесса вариационных кривых может быть самостоятельной задачей при проведении исследовательских работ.

>Генеральная совокупность и выборочный метод

Статистическая совокупность

Статистическая совокупность — множество единиц, обладающих массовостью, типичностью, качественной однородностью и наличием вариации.

Статистическая совокупность состоит из материально существующих объектов (Работники, предприятия, страны, регионы), является объектом статистического исследования.

Единица совокупности — каждая конкретная единица статистической совокупности.

Одна и таже статистическая совокупность может быть однородна по одному признаку и неоднородна по другому.

Качественная однородность — сходство всех единиц совокупности по какому-либо признаку и несходство по всем остальным.

В статистической совокупности отличия одной единицы совокупности от другой чаще имеют количественную природу. Количественные изменения значений признака разных единиц совокупности называются вариацией.

Вариация признака — количественное изменение признака (для количественного признака) при переходе от одной единицы совокупности к другой.

Признак — это свойство, характерная черта или иная особенность единиц, объектов и явлений, которая может быть наблюдаема или измерена. Признаки делятся на количественные и качественные. Многообразие и изменчивость величины признака у отдельных единиц совокупности называется вариацией.

Атрибутивные (качественные) признаки не поддаются числовому выражению (состав населения по полу). Количественные признаки имеют числовое выражение (состав населения по возрасту).

Показатель — это обобщающая количественно качестванная характеристика какого-либо свойства единиц или совокупности в цельм в конкретных условиях времени и места.

Система показателей — это совокупность показателей всесторонне отражающих изучаемое явление.

Например, изучается зарплата:

  • Признак — оплата труда
  • Статистическая совокупность — все работники
  • Единица совокупности — каждый работник
  • Качественная однородность — начисленная зарплата
  • Вариация признака — ряд цифр

Генеральная совокупность и выборка из нее

Основу статистического исследования составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой, а гипотетически существующая (домысливаемая) — генеральной совокупностью. Генеральная совокупность может быть конечной (число наблюдений N = const) или бесконечной (N = ∞), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки. Если объем выборки достаточно велик (n → ∞) выборка считается большой, в противном случае она называется выборкой ограниченного объема. Выборка считается малой, если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30), а при измерении одновременно нескольких (k) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10). Выборка образует вариационный ряд, если ее члены являются порядковыми статистиками, т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами.

Пример. Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Основные способы организации выборки

Достоверность статистических выводов и содержательная интерпретация результатов зависит от репрезентативности выборки, т.е. полноты и адекватности представления свойств генеральной совокупности, по отношению к которой эту выборку можно считать представительной. Изучение статистических свойств совокупности можно организовать двумя способами: с помощью сплошного и несплошного наблюдения . Сплошное наблюдение предусматривает обследование всех единиц изучаемой совокупности, а несплошное (выборочное) наблюдение — только его части.

Существуют пять основных способов организации выборочного наблюдения:

1. простой случайный отбор, при котором объектов случайно извлекаются из генеральной совокупности объектов (например с помощью таблицы или датчика случайных чисел), причем каждая из возможных выборок имеют равную вероятность. Такие выборки называются собственно-случайными;

2. простой отбор с помощью регулярной процедуры осуществляется с помощью механической составляющей (например, даты, дня недели, номера квартиры, буквы алфавита и др.) и полученные таким способом выборки называются механическими;

3. стратифицированный отбор заключается в том, что генеральная совокупность объема подразделяется на подсовокупности или слои (страты) объема так что . Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными (иначе, расслоенными, типическими, районированными);

4. методы серийного отбора используются для формирования серийных или гнездовых выборок. Они удобны в том случае, если необходимо обследовать сразу «блок» или серию объектов (например, партию товара, продукцию определенной серии или население при территориально-административном делении страны). Отбор серий можно осуществить собственно-случайным или механическим способом. При этом проводится сплошное обследование определенной партии товара, или целой территориальной единицы (жилого дома или квартала);

5. комбинированный (ступенчатый ) отбор может сочетать в себе сразу несколько способов отбора (например, стратифицированный и случайный или случайный и механический); такая выборка называется комбинированной.

Виды отбора

По виду различаются индивидуальный, групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности, при групповом отборе — качественно однородные группы (серии) единиц, а комбинированный отбор предполагает сочетание первого и второго видов.

По методу отбора различают повторную и бесповторную выборку.

Бесповторным называется отбор, при котором попавшая в выборку единица не возвращается в исходную совокупность и в дальнейшем выборе не участвует; при этом численность единиц генеральной совокупности N сокращается в процессе отбора. При повторном отборе попавшая в выборку единица после регистрации возвращается в генеральную совокупность и таким образом сохраняет равную возможность наряду с другими единицами быть использованной в дальнейшей процедуре отбора; при этом численность единиц генеральной совокупности N остается неизменной (метод в социально-экономических исследованиях применяется редко). Однако, при большом N (N → ∞) формулы для бесповторного отбора приближаются к аналогичным для повторного отбора и практически чаще используются последние (N = const).

Основные характеристики параметров генеральной и выборочной совокупности

В основе статистических выводов проведенного исследования лежит распределение случайной величины , наблюдаемые же значения (х1, х2, … , хn) называются реализациями случайной величины Х (n — объем выборки). Распределение случайной величины в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением. Некоторые теоретические распределения заданы аналитически, т.е. их параметры определяют значение функции распределения в каждой точке пространства возможных значений случайной величины . Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение (или гипотеза) о виде распределения может быть как статистически верным, так и ошибочным. Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное. Важнейшими параметрами распределений являются математическое ожидание и дисперсия .

По своей природе распределения бывают непрерывными и дискретными. Наиболее известным непрерывным распределением является нормальное. Выборочными аналогами параметров идля него являются: среднее значение и эмпирическая дисперсия . Среди дискретных в социально-экономических исследованиях наиболее часто применяется альтернативное (дихотомическое) распределение. Параметр математического ожидания этого распределения выражает относительную величину (или долю) единиц совокупности, которые обладают изучаемым признаком (она обозначена буквой ); доля совокупности, не обладающая этим признаком, обозначается буквой q (q = 1 — p). Дисперсия же альтернативного распределения также имеет эмпирический аналог .

В зависимости от вида распределения и от способа отбора единиц совокупности по-разному вычисляются характеристики параметров распределения. Основные из них для теоретического и эмпирического распределений приведены в табл. 9.1.

Долей выборки kn называется отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

kn = n/N.

Выборочная доля w — это отношение единиц, обладающих изучаемым признаком x к объему выборки n:

w = nn/n.

Пример. В партии товара, содержащей 1000 ед., при 5% выборке доля выборки kn в абсолютной величине составляет 50 ед. (n = N*0,05); если же в этой выборке обнаружено 2 бракованных изделия, то выборочная доля брака w составит 0,04 (w = 2/50 = 0,04 или 4%).

Так как выборочная совокупность отлична от генеральной, то возникают ошибки выборки.

Таблица 9.1 Основные параметры генеральной и выборочной совокупностей

Ошибки выборки

При любом статистическом наблюдении (сплошном и выборочном) могут встретиться ошибки двух видов: регистрации и репрезентативности. Ошибки регистрации могут иметь случайный и систематический характер. Случайные ошибки складываются из множества различных неконтролируемых причин, носят непреднамеренный характер и обычно по совокупности уравновешивают друг друга (например, изменения показателей прибора при температурных колебаниях в помещении).

Систематические ошибки тенденциозны, так как нарушают правила отбора объектов в выборку (например, отклонения в измерениях при изменении настройки измерительного прибора).

Пример. Для оценки социального положения населения в городе предусмотрено обследовать 25% семей. Если при этом выбор каждой четвертой квартиры основан на ее номере, то существует опасность отобрать все квартиры только одного типа (например, однокомнатные), что обеспечит систематическую ошибку и исказит результаты; выбор же номера квартиры по жребию более предпочтителен, так как ошибка будет случайной.

Ошибки репрезентативности присущи только выборочному наблюдению, их невозможно избежать и они возникают в результате того, что выборочная совокупность не полностью воспроизводит генеральную. Значения показателей, получаемых по выборке, отличаются от показателей этих же величин в генеральной совокупности (или получаемых при сплошном наблюдении).

Ошибка выборочного наблюдения есть разность между значением параметра в генеральной совокупности и ее выборочным значением. Для среднего значения количественного признака она равна: , а для доли (альтернативного признака) — .

Ошибки выборки свойственны только выборочным наблюдениям. Чем больше эти ошибки, тем больше эмпирическое распределение отличается от теоретического. Параметры эмпирического распределения и являются случайными величинами, следовательно, ошибки выборки также являются случайными величинами, могут принимать для разных выборок разные значения и поэтому принято вычислять среднюю ошибку.

Средняя ошибка выборки есть величина , выражающая среднее квадратическое отклонение выборочной средней от математического ожидания. Эта величина при соблюдении принципа случайного отбора зависит прежде всего от объема выборки и от степени варьирования признака: чем больше и чем меньше вариация признака (следовательно, и значение ), тем меньше величина средней ошибки выборки . Соотношение между дисперсиями генеральной и выборочной совокупностей выражается формулой:

т.е. при достаточно больших можно считать, что . Средняя ошибка выборки показывает возможные отклонения параметра выборочной совокупности от параметра генеральной. В табл. 9.2 приведены выражения для вычисления средней ошибки выборки при разных методах организации наблюдения.

Таблица 9.2 Средняя ошибка (m) выборочных средней и доли для разных видов выборки

Где — средняя из внутригрупповых выборочных дисперсий для непрерывного признака;

— средняя из внутригрупповых дисперсий доли;

— число отобранных серий, — общее число серий;

,

где — средняя -й серии;

— общая средняя по всей выборочной совокупности для непрерывного признака;

,

где — доля признака в -й серии;

— общая доля признака по всей выборочной совокупности.

Однако о величине средней ошибки можно судить лишь с определенной, вероятностью Р (Р ≤ 1). Ляпунов А.М. доказал, что распределение выборочных средних , a следовательно, и их отклонений от генеральной средней, при достаточно большом числе приближенно подчиняется нормальному закону распределения при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.

Математически это утверждение для средней выражается в виде:

а для доли выражение (1) примет вид:

где — есть предельная ошибка выборки, которая кратна величине средней ошибки выборки , а коэффициент кратности — есть критерий Стьюдента («коэффициент доверия»), предложенный У.С. Госсетом (псевдоним «Student»); значения для разного объема выборки хранятся в специальной таблице.

Значения функции Ф(t) при некоторых значениях t равны:

Следовательно, выражение (3) может быть прочитано так: с вероятностью Р = 0,683 (68,3%) можно утверждать, что разность между выборочной и генеральной средней не превысит одной величины средней ошибки m (t = 1), с вероятностью Р = 0,954 (95,4%) — что она не превысит величины двух средних ошибок m (t = 2) , с вероятностью Р = 0,997 (99,7%) — не превысит трех значений m (t = 3) . Таким образом, вероятность того, что эта разность превысит трехкратную величину средней ошибки определяет уровень ошибки и составляет не более 0,3%.

В табл. 9.3 приведены формулы для вычисления предельной ошибки выборки.

Таблица 9.3 Предельная ошибка (D) выборки для средней и доли (р) для разных видов выборочного наблюдения

Практические примеры расчета

Пример 1. Вычисление среднего значения и доверительного интервала для непрерывного количественного признака.

Для оценки скорости расчета с кредиторами в банке проведена случайная выборка 10 платежных документов. Их значения оказались равными (в днях): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Необходимо с вероятностью Р = 0,954 определить предельную ошибку Δ выборочной средней и доверительные пределы среднего времени расчетов.

Решение. Среднее значение вычисляется по формуле из табл. 9.1 для выборочной совокупности

Дисперсия вычисляется по формуле из табл. 9.1.

Средняя квадратическая погрешность дня.

Ошибка средней вычисляется по формуле:

т.е. среднее значение равно x ± m = 12,0 ± 2,3 дней.

Достоверность среднего составила

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, и для Р = 0,954 уровня достоверности.

Таким образом, среднее значение равно `x ± D = `x ± 2m = 12,0 ± 4,6, т.е. его истинное значение лежит в пределах от 7,4 до16,6 дней.

Использование таблицы Стьюдента. Приложения позволяет заключить, что для n = 10 — 1 = 9 степеней свободы полученное значение достоверно с уровнем значимости a £ 0,001, т.е. полученное значение среднего достоверно отличается от 0.

Пример 2. Оценка вероятности (генеральной доли) р.

При механическом выборочном способе обследования социального положения 1000 семей выявлено, что доля малообеспеченных семей составила w = 0,3 (30%) (выборка была 2%, т.е. n/N = 0,02). Необходимо с уровнем достоверности р = 0,997 определить показатель р малообеспеченных семей во всем регионе.

Решение. По представленным значениям функции Ф(t) найдем для заданного уровня достоверности Р = 0,997 значение t = 3 (см. формулу 3). Предельную ошибку доли w определим по формуле из табл. 9.3 для бесповторного отбора (механическая выборка всегда является бесповторной):

Предельная относительная ошибка выборки в % составит:

Вероятность (генеральная доля) малообеспеченных семей в регионе составит р=w±Δw, а доверительные пределы р вычисляются исходя из двойного неравенства:

w — Δw ≤ p ≤ w — Δw, т.е. истинное значение р лежит в пределах:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Таким образом, с вероятностью 0,997 можно утверждать, что доля малообеспеченных семей среди всех семей региона составляет от 28,6% до 31,4%.

Пример 3. Вычисление среднего значения и доверительного интервала для дискретного признака, заданного интервальным рядом.

В табл. 9.5. задано распределение заявок на изготовление заказов по срокам их выполнения предприятием.

Таблица 9.5 Распределение наблюдений по срокам появления

Срок выполнения заявок (мес.)

Число наблюдений fi (абсолютная частота)

Относительная частота рi (%)

Середина интервала (градации) признака xi

до 6

св.60

Всего

100%

Решение. Средний срок выполнения заявок вычисляется по формуле:

Средний срок составит:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 мес.

Тот же ответ получим, если используем данные о рi из предпоследней колонки табл. 9.5, используя формулу:

Заметим, что середина интервала для последней градации находится путем искусственного ее дополнения шириной интервала предыдущей градации равной 60 — 36 = 24 мес.

Дисперсия вычисляется по формуле

где хi- середина интервального ряда.

Следовательно !!\sigma = \frac {20^2 + 14^2 + 1 + 25^2 + 49^2}{4}, а средняя квадратическая погрешность .

Ошибка средней вычисляется по формуле мес., т.е. среднее значение равно !!\overline{x} ± m = 23,1 ± 13,4.

Предельную ошибку вычислим по формуле из табл. 9.3 для повторного отбора, так как численность генеральной совокупности неизвестна, для 0,954 уровня достоверности:

Таким образом, среднее значение равно:

т.е. его истинное значение лежит в пределах от 0 до 50 мес.

Пример 4. Для определения скорости расчетов с кредиторами N = 500 предприятий корпорации в коммерческом банке необходимо провести выборочное исследование методом случайного бесповторного отбора. Определить необходимый объем выборки n, чтобы с вероятностью Р = 0,954 ошибка среднего значения выборки не превышала 3-х дней, если пробные оценки показали, что среднее квадратическое отклонение s составило 10 дней.

Решение. Для определения числа необходимых исследований n воспользуемся формулой для бесповторного отбора из табл. 9.4:

В ней значение t определяется из таблицы Стьюдента для уровня достоверности Р = 0,954. Оно равно 2. Среднее квадратическое значение s = 10, объем генеральной совокупности N = 500, а предельная ошибка среднего значения Δx = 3. Подставляя эти значения в формулу, получим:

т.е. выборку достаточно составить из 41 предприятия, чтобы оценить требуемый параметр — скорость расчетов с кредиторами.


Выборка и генеральная совокупность. Особенности построения выборки. Основные характеристики выборки и генеральной совокупности.

Генеральная совокупность — вся совокупность изучаемого объекта исследования.

Характеристики ген. совокупности:

• Объем — количественный признак

• Структура — качественные признаки (часто совпадают со структурой объекта исследования), которые являются критически значимыми для исследования.

• Локализация – конкретное пространство, на котором находится значимый объект.

(Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность — это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, мужчины 30-50 лет, использующие бритву определённой марки не реже раза в неделю, и имеющие доход не ниже $100 на одного члена семьи.)

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

• Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.

• Количественными признаками — статистические параметры выборки (статистические показатели характеризующие способность выборки представлять генеральную совокупность).

Ø Параметры должны быть согласованы с основными свойствами (качественными) генеральной совокупности и ее объемом (с определением точности описания).

Статистические параметры выборки:

• Объем выборочной совокупности

• Объемы страт выборочной совокупности (пропорциональны объемам страт генеральной совокупности или обратнопропорциональны)

• Доверительная вероятность — показывает, с какой вероятностью случайный ответ попадет в доверительный интервал. Для простоты можно понимать её как точность выборки. Как правило, используется 95% или 99%.

• Доверительный интервал (общий/частный)- можно понимать как погрешность. Задает ширину диапазона по обе стороны от выбранной точки, куда могут попадать ответы с определенной вероятностью (+/-2%).

• Вариативность признаков/вопроса (для частного интервала) — показывает вероятность получения определенного варианта ответа на заданный респонденту вопрос. Например, если вопрос подразумевает два возможных варианта ответа («да» или «нет), вариативность составляет 100%/2=50%.

Особенности построения выборки

Репрезентативность:

• Ключевой параметр любого количественного для исследования.

• Задается относительно генеральной совокупности.

• Связано с процедурой отбора респондентов, т.е. с построением выборки.

• Суть заключается в том, насколько отобранные единицы из генеральной совокупности способны по основным параметрам представлять выборочную совокупность.

• Соответственно важно совпадение основных свойств генеральной совокупности в выборочной.

(это такая выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности. Если 30% избирателей Пенсильвании принадлежат к “синим воротничкам”, около 30% репрезентативной выборки для этих избирателей (а не 100%) должны быть из числа “синих воротничков”. И если 2% всех студентов колледжей являются спортсменами, приблизительно та же самая часть репрезентативной выборки студентов колледжей должна приходиться на спортсменов. Иными словами, репрезентативная выборка представляет собой микрокосм, меньшую по размеру, но точную модель генеральной совокупности, которую она должна отражать).

Типы выборок. Основания для классификации выборок.

Ответ: Целенаправленные выборки – отбираются респонденты из генеральной совокупности целевым образом, как наиболее характерные представители данной генеральной совокупности.

При этом часто используются «списки» генеральной совокупности для целевого отбора.

Важным являются свойства отобранных объектов или качественные признаки генеральной совокупности.

Случайная (вероятностная) выборка — это выборка, для которой каждый элемент генеральной совокупности имеет определенную, заранее заданную вероятность быть отобранным.

При этом выборка проектируется относительно структуры и репрезентативности.

Но в большей степени важна вероятность (равновероятностно) попадания того или иного респондента в выборку.

Целенаправленные выборки:

• Квотная выборка – задаются квоты в рамках критически важных свойств для структуры выборки; объем квот определяется пропорционально структуры генеральной совокупности; внутри квот осуществляется произвольный отбор.

• Стихийная выборка – существует минимальный контроль за отбором респондентов через точки доступа (места, сайты, газеты/журналы), но решение о включении в выборку принимает сам респондент. Размер заранее часто не известен, а определяется конкретным условием — активностью респондентов (ситуация добровольного рекрутинга).

• Типическая выборка — генеральная совокупность вначале разбивается на однородные типические группы. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность. Ключевой параметр – типичные свойства — группы.

Случайная (вероятностная) выборка:

• Стратифицированная выборка – тип выборки в котором для повышения ее эффективности используется информация о подгруппах, существующих в генеральной совокупности.

• Пропорциональная стратифицированная выборка — разновидность стратифицированной выборки, при которой число выбранных элементов в каждой страте пропорционально численности входящих в них элементов.

• Прямо пропорциональная стратифицированная выборка подразумевает выбор большего количества элементов в большей группе, меньшего — в меньшей.

• Обратно пропорциональная выборка предполагает выбор в меньшей группе большее количество элементов, а в большей группе — меньшее количество.

• Если при использовании стратифицированной выборки размеры выборок из каждой группы не пропорциональны размеру соответствующей группы, такую выборку называют непропорциональной стратифицированной выборкой.

• Простая случайная выборка — это подход, при котором каждый член совокупности (и каждая выборка) имеет одинаковую неизвестную вероятность быть выбранным.

 Составляется общий список населения, а потом из него по принципу случайности отбирается нужное количество единиц для опроса (лотерея, генератор случайных чисел; возвратная/невозвратная единица отбора)

• Систематизированная случайная выборка — берется случайная начальная точка в общем списке населения и определенный шаг отсчета (используется в «поквартирных» опросах).

Статистические параметры выборки:

• Объем выборочной совокупности

• Объемы страт выборочной совокупности (пропорциональны объемам страт генеральной совокупности или обратнопропорциональны)

• Доверительная вероятность — показывает, с какой вероятностью случайный ответ попадет в доверительный интервал. Для простоты можно понимать её как точность выборки. Как правило, используется 95% или 99%.

• Доверительный интервал (общий/частный)- можно понимать как погрешность. Задает ширину диапазона по обе стороны от выбранной точки, куда могут попадать ответы с определенной вероятностью (+/-2%).

• Вариативность признаков/вопроса (для частного интервала) — показывает вероятность получения определенного варианта ответа на заданный респонденту вопрос. Например, если вопрос подразумевает два возможных варианта ответа («да» или «нет), вариативность составляет 100%/2=50%.

Всё по специальности Менеджмент

Проектирование выборки включает следующие процедуры:
1. Выделение объектов генеральной совокупности. Генеральная совокупность — это множество всех единиц, являющихся объектами исследования. На этом этапе подготовки исследования необходимо определить, какие субъекты составляют исследуемую генеральную совокупность. Как правило, субъекты, входящие в генеральную совокупность, неоднородны, поэтому при определении типичных представителей объекта исследования некоторые группы могут быть упущены. В качестве генеральной совокупности могут быть определены рынок в целом, сегмент рынка или целевая группа субъектов.
2. Определение метода обследования. В зависимости от объема генеральной совокупности и целей исследования могут быть использованы методы сплошного или выборочного обследования.
Метод сплошного обследования заключается в изучении всех единиц генеральной совокупности. Метод связан с высокими затратами на проведение исследования, его использование оправдано, например, в случае малого количества потребителей, представляющих сегмент, или в случае, когда объем покупок данного клиента составляет значительную долю от емкости рынка в целом.
Выборка — это группа объектов исследования, которая является носителем характеристик всех единиц генеральной совокупности, например группа потребителей, представляющих интересы и вкусы всего целевого рынка.
Метод выборочного обследования обеспечивает меньшую точность по сравнению с методом сплошного обследования, однако он менее трудоемок. Целесообразно использование данного метода при наличии большого числа однородных единиц генеральной совокупности. Метод выборочного обследования предоставляет информацию о генеральной совокупности на основании обследования только ее части, поэтому данные, полученные в ходе выборочного обследования, имеют вероятностный характер. На практике это означает, что в результате исследования определяется не конкретное значение, а интервал, в котором находится искомое значение. Вероятность, с которой можно утверждать, что ошибка выборки не превысит некоторую заданную величину, называется доверительной вероятностью.
Свойство выборки отражать характеристики генеральной совокупности называется репрезентативностью. Различие между характеристиками генеральной и выборочной совокупностей называется ошибкой выборки, которая зависит от выбранной процедуры составления (формирования) выборки.
3. Процедура составления выборки — это последовательность отбора респондентов в выборку. Отбор респондентов может сопровождаться систематическими и случайными ошибками. Систематические ошибки возникают при неправильно выбранной процедуре составления выборки. Случайные ошибки существуют всегда, поскольку связаны с влиянием сложно-предсказуемых факторов. Учитывая наличие двух типов ошибок при формировании выборки, выделяют случайные (вероятностные) и неслучайные (детерминированные) виды процедур составления выборки.
При использовании неслучайных процедур отбор респондентов в выборку производится на основе каких-либо принятых условий, ограничивающих круг вероятных участников исследования.
Возможны следующие виды неслучайных выборок:
• произвольная выборка — элементы выбираются без плана, бессистемно; способ недорог и удобен, но порождает неточность и нерепрезентативность;
• типовая выборка — набор ограничен лишь характерными (типичными) элементами генеральной совокупности; используется, например, при формировании фокус-групп; требует, однако, наличия сведений о типичности изучаемых объектов;
• квотированная выборка — структура выборки строится по аналогии с распределением определенных признаков в генеральной совокупности; от каждой группы генеральной совокупности отбираются участники исследования, количество которых пропорционально представительству группы в генеральной совокупности.
При формировании случайной выборки применяют следующие процедуры:
• простая выборка — элементы выбираются с помощью случайных чисел; при данном подходе предполагается, что для всех единиц генеральной совокупности вероятность быть избранной в выборочную совокупность одинакова (значение вероятности равняется отношению объема выборки к объему генеральной совокупности). Метод очень трудоемок и обязывает иметь список всех единиц генеральной совокупности;
• систематическая (механическая) выборка — первый элемент выбирается с помощью случайных чисел, остальные элементы выборки отбираются через равные интервалы (интервал скачка), которые равны отношению объема генеральной совокупности к объему выборки. Данный порядок формирования выборки значительно упрощает процедуру, однако может внести искажения в структуру выборки, если генеральная совокупность упорядочена по какому-либо признаку.
• стратифицированная (типическая или групповая) выборка — генеральная совокупность делится на группы с набором определенных признаков (сегменты или страты), в каждой из которой с помощью случайного отбора формируется своя выборка; весовой коэффициент каждой страты в общем объеме выборки соответствует ее удельному весу в генеральной совокупности;
• кластерная (серийная) выборка — генеральная совокупность делится на идентичные группы (гнезда, клумбы или кластеры). Кластеры должны быть по возможности однотипными, состав кластера должен быть подобен генеральной совокупности. Случайным образом из генеральной совокупности отбираются несколько групп, которые подвергаются сплошному обследованию (одноступенчатый подход). Возможен и двухступенчатый подход, когда первоначально формируется выборка из кластеров, из нее случайным образом отбираются единицы исследования
(т. е. единица выборки предыдущей стадии становится генеральной совокупностью для последующей). Недостаток этой процедуры формирования выборки — кластеры могут быть неоднородны между собой, однако эта процедура проста и экономична.
4. Определение размера выборки является некоторым компромиссом между теорией о точности результатов исследования и возможностью ее практической реализации по объему затрат на сбор информации.

Как обозначают в генеральной совокупности (генеральную среднюю)?- ;

Как обозначают среднюю величину в выборочной совокупности (выборочную среднюю)?- ;

Как обозначается доля единиц, обладающих тем или иным изучаемым признаком в генеральной совокупности ( генеральная доля)?- p;

Как обозначается доля единиц, обладающих тем или иным изучаемым признаком в выборочной совокупности (выборочная доля)?- w;

Как называется доля единиц, обладающих тем или иным изучаемым признаком в генеральной совокупности- генеральная доля.

Как называется доля единиц, обладающих тем или иным изучаемым признаком в выборочной совокупности? — выборочная доля

Как обозначается средняя ошибка выборки? — .

Как обозначается предельная ошибка выборки —

Какую выборку называют малой? — когда выборочная совокупность состоит из сравнительно небольшого числа единиц

Какую выборку называют механической ? — когда отбор единиц из генеральной совокупности производится в каком-либо установленном порядке (например, отбирается каждая 50-я единица);

Какую выборку называют типической ? — когда перед проведением выборки генеральная совокупность делится на группы по какому-либо однородному типическому признаку, а затем внутри каждой группы производится случайная выборка;

Какой способ выборки называют случайным ? — когда включение единиц в выборочную совокупность осуществляется в результате непреднамеренного отбора

Какие выборки называют взаимопроникающими ? — если из одной генеральной совокупности производится одним и тем же способом несколько независимых друг от друга выборок.

Как называется выборка, когда выборочная совокупность состоит из сравнительно небольшого числа единиц — малая;

Как называется выборка, когда отбор единиц из генеральной совокупности производится в каком-либо определенном порядке (например, отбирается каждая 50-я единица)? -механическая

Как называется выборка, когда перед проведением выборки генеральная совокупность делится на группы по какому-либо типическому признаку, а затем внутри каждой группы производится случайная выборка ? — типическая

Как называется способ выборки, когда включение единиц в выборочную совокупность осуществляется в результате непреднамеренного отбора? — случайная

Как называются выборки, когда из одной генеральной совокупности производится одним и тем же способом несколько независимых друг от друга выборок? — взаимопроникающие

Какие различают виды отбора единиц из генеральной совокупности? — индивидуальный, групповой, комбинированный

Какое основное требование должно соблюдаться при построении динамических рядов:

C) сопоставимость уровней;

Коэффициент роста показывает:

C) во сколько раз сравниваемый уровень показателя превышает уровень показателя базисного периода;

Когда каждый уровень ряда сопоставляется с предшествующим ему уровнем, показатели называются:

A) цепными;

Когда все уровни ряда динамики сравниваются с одним и тем же уровнем, выбранным за базу сравнения, показатели называются:

D) базисными;

Какой показатель рассчитывается по данной формуле: , гдер – средний темп роста?

E) средний темп прироста.

Какой показатель рассчитывается по данной формуле: Тр -100, где Тр – средний темп роста?

D) темп прироста;

Какой показатель рассчитывается по данной формуле: ,

где n — число уровней ряда динамики, — первый уровень ряда динамики,- последний уровень ряда динамики?

D) средний абсолютный прирост;

Как связаны между собой индексы стоимости продукции, объема продукции и цен (is, iq , ip)?

E) .

Какой из индексов характеризует изменение только индексируемой величины при неизменности весов соизмерения:

D) индексом постоянного состава;

Какой из индексов применяют при исчислении индексов цен за длительный период времени для сглаживания тенденций в структуре и составе объема продукции, в которых происходят значительные изменения:

C) индекс Фишера;

Какой из нижеприведенных индексов характеризует “идеальную” формулу расчета индекса цен, предложенную американским ученым И. Фишером:

D) .

Какой индекс характеризует следующая взаимосвязь индексов JZ * Jq :

C) индекс издержек производства;

Как изменилась себестоимость единицы продукции, если индекс физического объёма продукции составил 1,22, а стоимость затрат в производстве увеличилась на 15%?

A) возросла на 10%;

Как называется агрегатный индекс, у которого один элемент изменяется, а другой зафиксирован в числителе и знаменателе на уровне одного и того же периода?

D) индекс постоянного состава;

Какой из данных индексов характеризует общее изменение качественного показателя, выраженного средней величиной?

D) .

Какой из данных индексов является индексом постоянного состава?

Е) нет верного ответа.

Где: х — варианта

Izt – индекс издержек производства

Ipq – индекс товароборота

р0 – цена в базисном периоде

р1 – цена в отчётном периоде

q0 – объём продаж в базисном периоде

q1 – объём продаж в отчётном периоде

z0 – себестоимость в базисном периоде

z1 – себестоимость в отчётном периоде

f0 – в базисном периоде

f1 – в отчётном периоде

Как изменились цены, если физический объём продаж увеличился на 12%, а товарооборот в фактических ценах вырос на 9%?

B) уменьшились на 3%;

Как называется связь между факторным и результативным признаками, которая проявляется не для каждой единицы совокупности, а для всей совокупности в среднем?

E) статистическая.

Как называется связь при которой частный случай статистической связи при котором разным значениям переменной соответствуют разные средние значения другой переменной

План:

1. Задачи математической статистики.

2. Виды выборок.

3. Способы отбора.

4. Статистическое распределение выборки.

5. Эмпирическая функция распределения.

6. Полигон и гистограмма.

7. Числовые характеристики вариационного ряда.

8. Статистические оценки параметров распределения.

9. Интервальные оценки параметров распределения.

1. Задачи и методы математической статистики

Математическая статистика- это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным- контролируемый размер детали.

Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.

Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.

2. Виды выборок

Генеральная совокупность – это совокупность объектов, из которой производится выборка.

Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.

Объем совокупности – это число объектов этой совокупности. Объем генеральной совокупности обозначается N, выборочной – n.

Пример:

Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.

При составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

На практике обычно пользуются бесповторным случайным отбором.

Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности. Выборка должна быть репрезентативной (представительной).

В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно.

Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.

Пример:

В американском журнале «Литературное обозрение» с помощью статистических методов было проведено исследование прогнозов относительно исхода предстоящих выборов президента США в 1936 году. Претендентами на этот пост были Ф.Д. Рузвельт и А. М. Ландон. В качестве источника для генеральной совокупности исследуемых американцев были взяты справочники телефонных абонентов. Из них случайным образом были выбраны 4 миллиона адресов., по которым редакция журнала разослала открытки с просьбой высказать свое отношение к кандидатам на пост президента. Обработав результаты опроса, журнал опубликовал социологический прогноз о том, что на предстоящих выборах с большим перевесом победит Ландон. И … ошибся: победу одержал Рузвельт.
Этот пример можно рассматривать, как пример нерепрезентативной выборки. Дело в том, что в США в первой половине двадцатого века телефоны имела лишь зажиточная часть населения, которые поддерживали взгляды Ландона.

3. Способы отбора

На практике применяются различные способы отбора, которые можно разделить на 2 вида:

1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).

2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).

Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).

Типичным называют отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее «типичной» части. Например, если деталь изготавливают на нескольких станках, то отбор производят не из всей совокупности деталей, произведенных всеми станками, а из продукции каждого станка в отдельности. Таким отбором пользуются тогда, когда обследуемый признак заметно колеблется в различных «типичных» частях генеральной совокупности.

Механическим называют отбор, при котором генеральную совокупность «механически» делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект. Например, если нужно отобрать 20 % изготовленных станком деталей, то отбирают каждую 5-ую деталь; если требуется отобрать 5 % деталей- каждую 20-ую и т.д. Иногда такой отбор может не обеспечивать репрезентативность выборки (если отбирают каждый 20-ый обтачиваемый валик, причем сразу же после отбора производится замена резца, то отобранными окажутся все валики, обточенные затупленными резцами).

Серийным называют отбор, при котором объекты отбирают из генеральной совокупности не по одному, а «сериями», которые подвергают сплошному обследованию. Например, если изделия изготавливаются большой группой станков-автоматов, то подвергают сплошному обследованию продукцию только нескольких станков.

На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.

4. Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка, причем значение x1–наблюдалось раз, x2-n2 раз,… xk — nk раз. n = n1+n2+…+nk– объем выборки. Наблюдаемые значения называются вариантами, а последовательность вариант, записанных в возрастающем порядке- вариационным рядом. Числа наблюдений называются частотами (абсолютными частотами), а их отношения к объему выборки — относительными частотами или статистическими вероятностями.

Если количество вариант велико или выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляется не по отдельным точечным значениям, а по интервалам значений генеральной совокупности. Такой вариационный ряд называется интервальным. Длины интервалов при этом должны быть равны.

Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (суммы частот, попавших в этот интервал значений)

Точечный вариационный ряд частот может быть представлен таблицей:

xi

x1

x2

xk

ni

n1

n2

nk

Аналогично можно представить точечный вариационный ряд относительных частот.

Причем:

Пример:

Число букв в некотором тексте Х оказалось равным 1000. Первой встретилась буква «я», второй- буква «и», третьей- буква «а», четвертой- «ю». Затем шли буквы «о», «е», «у», «э», «ы».

Выпишем места, которые они занимают в алфавите, соответственно имеем: 33, 10, 1, 32, 16, 6, 21, 31, 29.

После упорядочения этих чисел по возрастанию получаем вариационный ряд: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Частоты появления букв в тексте: «а» — 75, «е» -87, «и»- 75, «о»- 110, «у»- 25, «ы»- 8, «э»- 3, «ю»- 7, «я»- 22.

Составим точечный вариационный ряд частот:

Пример:

Задано распределение частот выборки объема n = 20.

Составьте точечный вариационный ряд относительных частот.

xi

2

6

12

ni

3

10

7

Решение:

Найдем относительные частоты:

xi

2

6

12

wi

0,15

0,5

0,35

При построении интервального распределения существуют правила выбора числа интервалов или величины каждого интервала. Критерием здесь служит оптимальное соотношение: при увеличении числа интервалов улучшается репрезентативность, но увеличивается объем данных и время на их обработку. Разность xmax — xmin между наибольшим и наименьшим значениями вариант называют размахом выборки.

Для подсчета числа интервалов k обычно применяют эмпирическую формулу Стреджесса (подразумевая округление до ближайшего удобного целого): k = 1 + 3.322 lg n.

Соответственно, величину каждого интервала h можно вычислить по формуле :

5. Эмпирическая функция распределения

Рассмотрим некоторую выборку из генеральной совокупности. Пусть известно статистическое распределение частот количественного признака Х. Введем обозначения: nx – число наблюдений, при которых наблюдалось значение признака, меньшее х; n – общее число наблюдений (объем выборки). Относительная частота события Х<х равна nx/n. Если х изменяется, то изменяется и относительная частота, т.е. относительная частота nx/n- есть функция от х. Т.к. она находится эмпирическим путем, то она называется эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого х относительную частоту события Х<х.

где число вариант, меньших х,

n- объем выборки.

В отличие от эмпирической функции распределения выборки, функцию распределения F(x) генеральной совокупности называют теоретической функцией распределения.

Различие между эмпирической и теоретической функциями распределения состоит в том, что теоретическая функция F(x) определяет вероятность события Х<x , а эмпирическая функция F*(x) -относительную частоту этого же события. Из теоремы Бернулли следует, что относительная частота события Х<х , т.е F*(x) стремится по вероятности к вероятности F(x) этого события. Т.е.при большом n F*(x) и F(x) мало отличаются друг от друга.

Т.о. целесообразно использовать эмпирическую функцию распределения выборки для приближенного представления теоретической (интегральной) функции распределения генеральной совокупности.

F*(x) обладает всеми свойствами F(x).

1. Значения F*(x) принадлежат интервалу .

2. F*(x) — неубывающая функция.

3. Если – наименьшая варианта, то F*(x)= 0, при х < x1 ; если xk – наибольшая варианта, то F*(x)= 1, при х > xk .

Т.е. F*(x) служит для оценки F(x).

Если выборка задана вариационным рядом, то эмпирическая функция имеет вид:

График эмпирической функции называется кумулятой.

Пример:

Постройте эмпирическую функцию по данному распределению выборки.

Решение:

Объем выборки n = 12 + 18 +30 = 60. Наименьшая варианта 2, т.е. при х < 2. Событие X<6, ( x1= 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 при 2 < x < 6. Событие Х<10, ( x1=2, x2= 6) наблюдалось 12 + 18 = 30 раз, т.е. F*(x)=30/60=0,5 при 6 < x < 10. Т.к. х=10 наибольшая варианта, то F*(x) = 1 при х>10. Искомая эмпирическая функция имеет вид:

Кумулята:

Кумулята дает возможность понимать графически представленную информацию, например, ответить на вопросы: «Определите число наблюдений, при которых значение признака было меньше 6 или не меньше 6. F*(6)=0,2 » Тогда число наблюдений, при которых значение наблюдаемого признака было меньше 6 равно 0,2*n = 0,2*60 = 12. Число наблюдений, при которых значение наблюдаемого признака было не меньше 6 равно (1-0,2)*n = 0,8*60 = 48.

Если задан интервальный вариационный ряд, то для составления эмпирической функции распределения находят середины интервалов и по ним получают эмпирическую функцию распределения аналогично точечному вариационному ряду.

6. Полигон и гистограмма

Для наглядности строят различные графики статистического распределения: полином и гистограммы

Полигон частот- это ломаная, отрезки которой соединяют точки ( x1 ;n1 ), ( x2 ;n2 ),…, ( xk ; nk ), где – варианты, – соответствующие им частоты.

Полигон относительных частот- это ломаная, отрезки которой соединяют точки ( x1 ;w1 ), (x2 ;w2 ),…, ( xk ;wk ), где xi–варианты, wi – соответствующие им относительные частоты.

Пример:

Постройте полином относительных частот по данному распределению выборки:

Решение:

В случае непрерывного признака целесообразно строить гистограмму, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала ni – сумму частот вариант, попавших в i-ый интервал. (Например, при измерении роста человека или веса, мы имеем дело с непрерывным признаком).

Гистограмма частот- это ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению (плотность частот).

Площадь i-го частичного прямоугольника равна- сумме частот вариант i- го интервала, т.е. площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Пример:

Даны результаты изменения напряжения (в вольтах) в электросети. Составьте вариационный ряд, постройте полигон и гистограмму частот, если значения напряжения следующие: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 220, 216, 220, 225, 212, 217, 220.

Решение:

Составим вариационный ряд. Имеем n = 20, xmin=212 , xmax=232 .

Применим формулу Стреджесса для подсчета числа интервалов.

.

Интервальный вариационный ряд частот имеет вид:

Плотность частот

212-216

3

0,75

216-220

3

0,75

220-224

7

1,75

224-228

4

1

228-232

3

0,75

Построим гистограмму частот:

Построим полигон частот, найдя предварительно середины интервалов:

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников , основаниями которых служат частичные интервалы длиною h, а высоты равны отношению wi/h (плотность относительной частоты).

Площадь i-го частичного прямоугольника равна — относительной частоте вариант, попавших в i- ый интервал. Т.е. площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

7. Числовые характеристики вариационного ряда

Рассмотрим основные характеристики генеральной и выборочной совокупностей.

Генеральным средним называется среднее арифметическое значений признака генеральной совокупности.

Для различных значений x1, x2 , x3 , …, xn. признака генеральной совокупности объема N имеем:

Если значения признака имеют соответствующие частоты N1 +N2 +…+Nk =N, то

Выборочным средним называется среднее арифметическое значений признака выборочной совокупности.

Для различных значений x1, x2 , x3, …, xn признака выборочной совокупности объема n имеем:

Если значения признака имеют соответствующие частоты n1+n2+…+nk = n, то

Пример:

Вычислите выборочное среднее для выборки : x1= 51,12; x2= 51,07; x3= 52,95; x4 =52,93; x5= 51,1;x6 = 52,98; x7 = 52,29; x8 = 51,23; x9 = 51,07; x10 = 51,04.

Решение:

Генеральной дисперсией называется среднее арифметическое квадратов отклонений значений признака Х генеральной совокупности от генерального среднего .

Для различных значений x1, x2, x3, …, xN признака генеральной совокупности объема N имеем:

Если значения признака имеют соответствующие частоты N1+N2+…+Nk =N, то

Генеральным среднеквадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии

Выборочной дисперсией называется среднее арифметическое квадратов отклонений наблюдаемых значений признака от среднего значения.

Для различных значений x1, x2, x3, …, xn признака выборочной совокупности объема n имеем:

Если значения признака имеют соответствующие частоты n1+n2+…+nk = n, то

Выборочным среднеквадратическим отклонением (стандартом) называется квадратный корень из выборочной дисперсии.

Пример:

Выборочная совокупность задана таблицей распределения. Найдите выборочную дисперсию.

Решение:

Теорема: Дисперсия равна разности среднего квадратов значений признака и квадрата общего среднего.

Пример:

Найдите дисперсию по данному распределению.

Решение:

8. Статистические оценки параметров распределения

Пусть генеральная совокупность исследуется по некоторой выборке. При этом можно получить лишь приближенное значение неизвестного параметра Q, который служит его оценкой. Очевидно, что оценки могут изменяться от одной выборки к другой.

Статистической оценкой Q* неизвестного параметра теоретического распределения называется функция f, зависящая от наблюдаемых значений выборки. Задачей статистического оценивания неизвестных параметров по выборке заключается в построении такой функции от имеющихся данных статистических наблюдений, которая давала бы наиболее точные приближенные значения реальных, не известных исследователю, значений этих параметров.

Статистические оценки делятся на точечные и интервальные, в зависимости от способа их предоставления (числом или интервалом).

Точечной называют статистическую оценку параметра Q теоретического распределения определяемую одним значением параметра Q*=f(x1, x2, …, xn), где x1, x2, …, xn — результаты эмпирических наблюдений над количественным признаком Х некоторой выборки.

Такие оценки параметров, полученные по разным выборкам, чаще всего отличаются друг от друга. Абсолютная разность /Q*-Q/ называют ошибкой выборки (оценивания).

Для того, чтобы статистические оценки давали достоверные результаты об оцениваемых параметрах, необходимо, чтобы они были несмещенными, эффективными и состоятельными.

Точечная оценка, математическое ожидание которой равно (не равно) оцениваемому параметру, называется несмещенной (смещенной). М(Q*)=Q.

Разность М(Q*)-Q называют смещением или систематической ошибкой. Для несмещенных оценок систематическая ошибка равна 0.

Эффективной называют такую статистическую оценку Q*, которая при заданном объеме выборки n имеет наименьшую возможную дисперсию: Dmin (n=const). Эффективная оценка имеет наименьший разброс по сравнению с другими несмещенными и состоятельными оценками.

Состоятельной называют такую статистическую оценку Q*, которая при n стремится по вероятности к оцениваемому параметру Q, т.е. при увеличении объема выборки n оценка стремится по вероятности к истинному значению параметра Q.

Требование состоятельности согласуется с законом больших числе: чем больше исходной информации об исследуемом объекте, тем точнее результат. Если объем выборки мал, то точечная оценка параметра может привести к серьезным ошибкам.

Любую выборку (объема n) можно рассматривать как упорядоченный набор x1, x2, …, xn независимых одинаково распределенных случайных величин.

Выборочные средние для различных выборок объема n из одной и той же генеральной совокупности будут различны. Т. е. выборочное среднее можно рассматривать как случайную величину, а значит, можно говорить о распределении выборочного среднего и его числовых характеристиках.

Выборочное среднее удовлетворяет всем накладываемым к статистическим оценкам требованиям, т.е. дает несмещенную, эффективную и состоятельную оценку генерального среднего.

Можно доказать, что. Таким образом, выборочная дисперсия является смещенной оценкой генеральной дисперсии, давая ее заниженное значение. Т. е. при небольшом объеме выборки она будет давать систематическую ошибку. Для несмещенной, состоятельной оценки достаточно взять величину , которую называют исправленной дисперсией. Т. е.

На практике для оценки генеральной дисперсии применяют исправленную дисперсию при n < 30. В остальных случаях (n>30) отклонение от малозаметно. Поэтому при больших значениях n ошибкой смещения можно пренебречь.

Можно так же доказать, что относительная частота ni / n является несмещенной и состоятельной оценкой вероятности P(X=xi). Эмпирическая функция распределения F*(x) является несмещенной и состоятельной оценкой теоретической функции распределения F(x)=P(X<x).

Пример:

Найдите несмещенные оценки математического ожидания и дисперсии по таблице выборки.

xi

2

6

12

ni

3

10

7

Решение:

Объем выборки n=20.

Несмещенной оценкой математического ожидания является выборочное среднее.

Для вычисления несмещенной оценки дисперсии сначала найдем выборочную дисперсию:

Теперь найдем несмещенную оценку:

9. Интервальные оценки параметров распределения

Интервальной называется статистическая оценка, определяемая двумя числовыми значениями- концами исследуемого интервала.

Число> 0, при котором |Q-Q*|< , характеризует точность интервальной оценки.

Доверительным называется интервал , который с заданной вероятностью покрывает неизвестное значение параметра Q. Дополнение доверительного интервала до множества всех возможных значений параметра Q называется критической областью. Если критическая область расположена только с одной стороны от доверительного интервала, то доверительный интервал называется односторонним: левосторонним, если критическая область существует только слева, и правосторонним- если только справа. В противном случае, доверительный интервал называется двусторонним.

Надежностью, или доверительной вероятностью, оценки Q (с помощью Q*) называют вероятность, с которой выполняется следующее неравенство: |Q-Q*|< .

Чаще всего доверительную вероятность задают заранее (0,95; 0,99; 0,999) и на нее накладывают требование быть близкой к единице.

Вероятность называют вероятностью ошибки, или уровнем значимости.

Пусть |Q-Q*|< , тогда . Это означает, что с вероятностью можно утверждать, что истинное значение параметра Q принадлежит интервалу. Чем меньше величина отклонения , тем точнее оценка.

Границы (концы) доверительного интервала называют доверительными границами, или критическими границами.

Значения границ доверительного интервала зависят от закона распределения параметра Q*.

Величину отклонения равную половине ширины доверительного интервала, называют точностью оценки.

Методы построения доверительных интервалов впервые были разработаны американским статистом Ю. Нейманом. Точность оценки , доверительная вероятность и объем выборки n связаны между собой. Поэтому, зная конкретные значения двух величин, всегда можно вычислить третью.

Нахождение доверительного интервала для оценки математического ожидания нормального распределения, если известно среднеквадратическое отклонение.

Пусть произведена выборка из генеральной совокупности, подчиненной закону нормального распределения. Пусть известно генеральное среднеквадратическое отклонение , но неизвестно математическое ожидание теоретического распределения a ().

Справедлива следующая формула:

Т.е. по заданному значению отклонения можно найти, с какой вероятностью неизвестное генеральное среднее принадлежит интервалу. И наоборот. Из формулы видно, что при возрастании объема выборки и фиксированной величине доверительной вероятности величина — уменьшается, т.е. точность оценки увеличивается. С увеличением надежности (доверительной вероятности), величина -увеличивается, т.е. точность оценки уменьшается.

Пример:

В результате испытаний были получены следующие значения -25, 34, -20, 10, 21. Известно, что они подчиняются закону нормального распределения с среднеквадратическим отклонением 2. Найдите оценку а* для математического ожидания а. Постройте для него 90%-ый доверительный интервал.

Решение:

Найдем несмещенную оценку

Тогда

Доверительный интервал для а имеет вид: 4 – 1,47< a < 4+ 1,47 или 2,53 < a < 5, 47

Нахождение доверительного интервала для оценки математического ожидания нормального распределения, если неизвестно среднеквадратическое отклонение.

Пусть известно, что генеральная совокупность подчинена закону нормального распределения, где неизвестны а и . Точность доверительного интервала, покрывающего с надежностью истинное значение параметра а, в данном случае вычисляется по формуле:

, где n- объем выборки, ,- коэффициент Стьюдента (его следует находить по заданным значениям n и из таблицы «Критические точки распределения Стьюдента»).

Пример:

В результате испытаний были получены следующие значения -35, -32, -26, -35, -30, -17. Известно, что они подчиняются закону нормального распределения. Найдите доверительный интервал для математического ожидания а генеральной совокупности с доверительной вероятностью 0,9.

Решение:

Найдем несмещенную оценку .

Найдем .

Далее найдем .

Тогда

Доверительный интервал примет вида (-29,2 — 5,62; -29,2 + 5,62) или (-34,82; -23,58).

Нахождение доверительного интерла для дисперсии и среднеквадратического отклонения нормального распределения

Пусть из некоторой генеральной совокупности значений, распределенной по нормальному закону, взята случайная выборка объема n < 30, для которой вычислены выборочные дисперсии: смещенная и исправленная s2 . Тогда для нахождения интервальных оценок с заданной надежностью для генеральной дисперсии D генерального среднеквадратического отклонения используются следующие формулы.

или ,

Значения — находят с помощью таблицы значений критических точек распределения Пирсона.

Доверительный интервал для дисперсии находится из этих неравенств путем возведения всех частей неравенства в квадрат.

Пример:

Было проверено качество 15 болтов. Предполагая, что ошибка при их изготовлении подчинена нормальному закону распределения, причем выборочное среднеквадратическое отклонение равно 5 мм, определить с надежностью доверительный интервал для неизвестного параметра .

Решение:

Т. к. n = 15 <30, то воспользуемся формулой .

Найдем пограничные значения вероятности для .

Тогда:

Границы интервала представим в виде двойного неравенства:

Концы двустороннего доверительного интервала для дисперсии можно определить и без выполнения арифметических действий по заданному уровню доверия и объему выборки с помощью соответствующей таблицы (Границы доверительных интервалов для дисперсии в зависимости от числа степеней свободы и надежности). Для этого полученные из таблицы концы интервала умножают на исправленную дисперсию s2 .

Пример:

Решим предыдущую задачу другим способом.

Решение:

Найдем исправленную дисперсию:

По таблице «Границы доверительных интервалов для дисперсии в зависимости от числа степеней свободы и надежности» найдем границы доверительного интервала для дисперсии при k=14 и : нижняя граница 0,513 и верхняя 2,354.

Умножим полученные границы на s2 и извлечем корень (т.к. нам нужен доверительный интервал не для дисперсии, а для среднеквадратического отклонения).

Как видно из примеров, величина доверительного интервала зависит от способа его построения и дает близкие между собой, но неодинаковые результаты.

При выборках достаточно большого объема (n>30) границы доверительного интервала для генерального среднеквадратического отклонения можно определить по формуле:

Существует и другой способ определения границы доверительного интервала для дисперсии, в основе которого лежит выбор интервала, симметричного относительно :

Причем — некоторое число, которое табулировано и приводится в соответствующей справочной таблице.

Если 1- q<1, то формула имеет вид:

§ 4 Повторная и бесповторная выборки. Репрезентативная выборка

  • •§ 2. Закон распределения вероятностей дискретной двумерной случайной величины
  • •§ 3. Функция распределения двумерной случайной величины.
  • •§ 4. Свойства функции распределения двумерной случайной величины
  • •§ 5. Вероятность попадания случайной точки в полуполосу
  • •§ 6. Вероятность попадания случайной точки в прямоугольник
  • •§ 7. Плотность совместного распределения вероятностей непрерывной двумерной случайной величины (двумерная плотность вероятности)
  • •§ 8. Нахождение функции распределения системы по известной плотности распределения
  • •§ 9. Вероятностный смысл двумерной плотности вероятности.
  • •§ 10. Вероятность попадания случайной точки в произвольную область
  • •§11. Свойства двумерной плотности вероятности
  • •§ 12. Отыскание плотностей вероятности составляющих двумерной случайной величины
  • •§ 13. Условные законы распределения составляющих системы дискретных случайных величин
  • •§ 14. Условные законы распределения составляющих системы непрерывных случайных величин
  • •§ 15. Условное математическое ожидание
  • •§ 16. Зависимые и независимые случайные величины
  • •§ 17. Числовые характеристики системы двух случайных величин. Корреляционный момент. Коэффициент корреляции
  • •§ 18. Коррелированность и зависимость случайных величин
  • •§ 19. Нормальный закон распределения на плоскости
  • •§ 20. Линейная регрессия. Прямые линии среднеквадратической регрессии
  • •§ 21. Линейная корреляция. Нормальная корреляция
  • •§ 1. Задачи математической статистики
  • •§ 2. Краткая историческая справка
  • •§ 3. Генеральная и выборочная совокупности
  • •§ 4 Повторная и бесповторная выборки. Репрезентативная выборка
  • •§ 5. Способы отбора
  • •§ 6. Статистическое распределение выборки
  • •§ 7. Эмпирическая функция распределения
  • •§ 8. Полигон и гистограмма
  • •§ 1. Статистические оценки параметров распределения
  • •§ 2. Несмещенные, эффективные и состоятельные оценки
  • •§ 3. Генеральная средняя
  • •§ 4. Выборочная средняя
  • •§ 5. Оценка генеральной средней по выборочной средней. Устойчивость выборочных средних
  • •§ 6. Групповая и общая средние
  • •§ 7. Отклонение от общей средней и его свойство
  • •§ 8. Генеральная дисперсия
  • •§ 9. Выборочная дисперсия
  • •§ 10. Формула для вычисления дисперсии
  • •§11. Групповая, внутригрупповая, межгрупповая и общая дисперсии
  • •§ 12. Сложение дисперсий
  • •§ 13. Оценка генеральной дисперсий по исправленной выборочной
  • •§14. Точность оценки, доверительная вероятность (надежность). Доверительный интервал
  • •§ 15. Доверительные интервалы для оценки математического ожидания нормального распределения при известном σ
  • •§ 16. Доверительные интервалы для оценки математического ожидания нормального распределения при неизвестном σ
  • •§ 17. Оценка истинного значения измеряемой величины
  • •§ 18. Доверительные интервалы для оценки среднего квадратического отклонения σ нормального распределения
  • •§ 19. Оценка точности измерений
  • •§ 20. Оценка вероятности (биномиального распределения) по относительной частоте
  • •§ 21. Метод моментов для точечной оценки параметров распределения
  • •§ 22. Метод наибольшего правдоподобия
  • •§ 23. Другие характеристики вариационного ряда
  • •§ 1. Условные варианты
  • •§ 2. Обычные, начальные и центральные эмпирические моменты
  • •§ 3. Условные эмпирические моменты. Отыскание центральных моментов по условным
  • •§ 4. Метод произведений для вычисления выборочных средней и дисперсии
  • •§ 5. Сведение первоначальных вариант к равноотстоящим
  • •§ 6. Эмпирические и выравнивающие (теоретические) частоты
  • •§ 7. Построение нормальной кривой по опытным данным
  • •§ 8. Оценка отклонения эмпирического распределения от нормального. Асимметрия и эксцесс
  • •§ 1. Функциональная, статистическая и корреляционная зависимости
  • •§ 2. Условные средние
  • •§ 3. Выборочные уравнения регрессии
  • •§ 4. Отыскание параметров выборочного уравнения прямой линии среднеквадратичной регрессии по не сгруппированным данным
  • •§ 5. Корреляционная таблица
  • •§ 6. Отыскание параметров выборочного уравнения прямой линии регрессии по сгруппированным данным
  • •§ 7. Выборочный коэффициент корреляции
  • •§ 8. Методика вычисления выборочного коэффициента корреляции
  • •§ 9. Пример на отыскание выборочного уравнения прямой линии регрессии
  • •§ 10. Предварительные соображения к введению меры любой корреляционной связи
  • •§ 11. Выборочное корреляционное отношение
  • •§ 12. Свойства выборочного корреляционного отношения
  • •§ 13. Корреляционное отношение как мера корреляционной связи. Достоинства и недостатки этой меры
  • •§ 14. Простейшие случаи криволинейной корреляции
  • •§ 15. Понятие о множественной корреляции
  • •§ 1. Статистическая гипотеза. Нулевая и конкурирующая, простая и сложная гипотезы
  • •§ 2. Ошибки первого и второго рода
  • •§ 3. Статистический критерий проверки нулевой гипотезы. Наблюдаемое значение критерия
  • •§ 4. Критическая область. Область принятия гипотезы. Критические точки
  • •§ 5. Отыскание правосторонней критической области
  • •§ 6. Отыскание левосторонней и двусторонней критических областей
  • •§ 7. Дополнительные сведения о выборе критической области. Мощность критерия
  • •§ 8. Сравнение двух дисперсий нормальных генеральных совокупностей
  • •§ 9. Сравнение исправленной выборочной дисперсии с гипотетической генеральной дисперсией нормальной совокупности
  • •§ 10. Сравнение двух средних нормальных генеральных совокупностей, дисперсии которых известны (независимые выборки)
  • •§ 11( Сравнение двух средних произвольно распределенных генеральных совокупностей (большие независимые выборки)
  • •§ 12. Сравнение двух средних нормальных генеральных совокупностей, дисперсии которых неизвестны и одинаковы (малые независимые выборки)
  • •§ 13. Сравнение выборочной средней с гипотетической генеральной средней нормальной совокупности а. Дисперсия генеральной совокупности известна.
  • •§ 14. Связь между двусторонней критической областью и доверительным интервалом
  • •§ 15. Определение минимального объема выборки при сравнении выборочной и гипотетической генеральной средних
  • •§ 16. Пример на отыскание мощности критерия
  • •§ 17. Сравнение двух средних нормальных генеральных совокупностей с неизвестными дисперсиями (зависимые выборки)
  • •§ 18. Сравнение наблюдаемой относительной частоты с гипотетической вероятностью появления события

5.1. Генеральная совокупность и выборка

В процессе статистического наблюдения обследованию могут подвергаться все элементы данной совокупности или некоторая часть их. В соответствии с этим наблюдения бывают сплошными или несплошными. Наиболее совершенный и научно обоснованный способ несплошного наблюдения—это выборочное наблюдение.

Оно рассчитано на то, чтобы на основе обследования некоторой части совокупности судить о всей данной совокупности.

Например, если требуется обследовать большой коллектив рабочих одной и той же профессии в отношении распределения бюджета, то из-за значительной трудоемкости всей работы практикуется выборочное обследование небольшой части этого коллектива.

Весь коллектив при этом называется Генеральной совокупностьюА выделенная для обследования часть коллектива называется Выборочной соВОкупностью.

Наиболее простой способ образования «случайной» выборки состоит в следующем.

Предварительно все члены генеральной совокупности нумеруются, и каждый номер записывается на отдельной карточке. Получившаяся пачка содержит столько же карточек, сколько членов имеет вся генеральная совокупность. Затем после тщательного перемешивания из пачки наугад берутся отдельные карточки, и ноМЕра каждой Нз Них фиксируются. Перечень номеров этих карточек указывает, какие члены генеральной совокупности случайно попали в состав выборочной совокупности. При этом существуют два принципиально различных вида случайной выборки.

1. Если каждая карточка, вынутая наугад из всей пачки, после фиксирования ее номера возвращается обратно в обЩУю пачку, то зафиксированные номера карточек определят состав Собственно случайной повторной выборки.

2. Если каждая наугад вынутая карточка не возвращаетсЯ в общую пачку, то зафиксированные номера карточек определят состав Собственно случайной бесповторной выборки.

Заметим, что случайная бесповторная выборка имеет место и тогда, когда из тщательного перемешанной пачки сразу берется нужное количество карточек.

Отношение объема выборочной совокупности П к объему генеральной совокупности N, т. Е. , называется Относительным Показателем выборки. Если в нашем примере N=20000 и П1000, то в данном случае относительный показатель выборки Равен .

Любое выборочное наблюдение независимо от относИТельного показателя выборки, как правило, не дает точной характеристики всей генеральной совокупности. Поэтому каждый результат, вычисленный по данным выборки, имеет некоторую погрешность. Эта погрешность называется ОшибкоЙ репрезентативности (или представИТельности). Ошибка репрезентативности показывает величину расхождения между показателями по данным выборочного обследования и соответствующими показателями всей статистической (генеральной) сОВокупности.

Особенностью выборочного наблюдения является то, что отбор единиц (объектов наблюдения) выполняется в случайном порядке. Поэтому к выборочному наблюдению применимы положения и теоремы теории вероятностей, дающие возможность определять границы возможных ошибок. Случайный характер отбора объектов обследования в выборке приводит к случайному же характеру ошибок репрЕЗентативности. Поэтому здесь можно на основе закона больших чисел, увеличивая объем выборки, регулировать пределы возможной ошибки репрезентативности и, наоборот, по заданному пределу допустимой ошибки определить необходимую численность выборки.

Ошибка репрезентативности имеет важное значение в применении результатов выборочного обследования. При вычислЕНии средней, она определяется как разность между выборочной средней и генеральной средней.

Заметим, что Генеральной средней называется среднее значение изучаемого признака в генеральной совокупности

Это — средняя взвешенная при наличии в совокупности ПовтоРяюЩИхся значений признака.

При отсутствии повторений применяется формула средней Арифметической

Аналогично Выборочной средней называется среднее значение того же признака в выборочной совокупности. Здесь соответственно применяются формулы

Или

(П — Объем выборочной совокупности).

Обозначая ошибку репрезентативности символом D, будем иметь

Приведем конкретный пример.

Пусть в коллективе из 20 000 рабочих СРедняя месячная Заработная плата рабочего (генеральная средняя) составляет 95,9 Руб. При выборочном обследовании 1000 рабочих средняя заработнаЯ Плата рабочего (выборочная средняя) оказалась равной 96 руб.

Отсюда ошибка репрезентативности при выборочном обследованиЯ определяется так: Руб.

Аналогично проводится вычисление ошибки репрезентативностЬ При определении доли изучаемого признака в некоторой генеральноЙ Совокупности. Если N — Численность генеральной совокупностиА М — Количество единиц, обладающих данным признаком в ее составе, то доля (Р) единиц, обладающих этим признаком в генеральной совокупности

Называется Генеральной долей.

Если для выборочной совокупности П обозначает численность выборки, Т — Количество единиц, обладающих изучаемым признаком в составе выборочной совокупности, то обозначим буквой W — Долю соответствующих единиц в составе выборки.

Это — выборочная доля

Разность определяет ошибку репрезентативности. Пусть в рассматриваемом коллективе из N 20000 рабочих имеется 1250 учеников, т. Е. М 1250. Этим определяется генеральная доля учеников в объеме генеральной совокупности

В выборочной совокупности из П=1000 человек оказалось M=64 ученика. Этим определяется Вьборочная доля .

Ошибка репрезентативности, ТакИм образом, составляет

,

Или .

Нахождение параметров распределения по выборочным данным (случай нормальНОго распределения).

Если ставится вопрос об установлении закона распределения случайной величины Х по ее частным значениям , полученным в результате выборки, то возникает необходимость отыскания значений тех параметров, которые характеризуют этот закон распределения. Наиболее распространенным является нормальное распределение, которое задается плотностью вероятности

Или функцией распределения ,

Где параметр А — математическое ожидание случайной величины X, а — Ее дисперсия.

Значения случайной величины Х , являющиеся независимыми результатами опыта (в порядке выборки), можно рассматривать как значения П независимых случайных величин, имеющих равные математические ожидания А. Для таких случайных величин справедливо следствие из теоремы Чебышева в виде

(при достаточно большом П).

Это означает, что математическое ожидание случайной величины X, т. е. генеральная средняя, приближенно выражается средней арифметической (или средней взвешенной при наличии повторяющихся значений Х) ее значений, полученных в порядке выборки, т. е. .

Переходя к определению т. е. дисперсии случайной величины Х По выборочным данным, следует отметить, что переход в формуле к значениям по данным выборки приводит к РезульТату (вывод его мы опускаем) .

Это — формула так называемоЙ Выборочной ДИсперсии. При больШой численности П выборки дроби и мало отличаются МеждУ собой, и поэтому значения и почти совпадают. При неболь Шой же численности П эти значения дают заметное расхождение.

В соответствии с указанным результатом для и среднее Квадратическое отклонение по выборочным данным принимается в вид .

Пример 1. Наблюдение в контрольной лаборатории за сроком годности 50 электроламп одинаковой мощности, взятых наудачу из большой партии выпущенных заводом ламп этой же мощности, привело к следующим данным о нарушении установленного гарантийНого срока горения:

Отклонение в Ч

Частоты

Требуется по этим выборочным данным найти параметры норМального распределения, которое отражает отклонение фактическоГо Срока горения лампочек от гарантийного.

Решение. Среднее отклонение

Выборочная дисперсия

Таким образом, искомое нормальное распределение Характеризуется следующими значениями параметров: А » 0,4, И . Отсюда плотность вероятности

Соответствующая этой плотности функция Распределения выразится так:

< Предыдущая

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *