Социально экономические явления в денежном выражении называют. Виды и формы взаимосвязей социально-экономических явлений. Современные трактовки рассматриваемого понятия

ТЕМА 11.

СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ

СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ

1. Виды и формы взаимосвязей между социально-экономическими явлениями. Общественная жизнь состоит из большого количества сложных явлений, которые формируются под влиянием многочис­ленных, разнообразных и взаимосвязанных факторов. Понять и изучить какое-либо явление можно, исследуя его во взаимосвязи с окружающими признаками.

В статистике различают факторные и результативные приз­наки.

Факторные (независимые ) признаки обусловливают изменения других, свя­занных с ними признаков.

Результативные (зависимые ) признаки изменяются под действием фактор­ных признаков.

Между явлениями и их признаками различают прежде всего два вида связей: функциональные и стохастические (статистические, вероятностные), каждая из ко­торых имеет свои особенности. Частный случай стохастических связей - корреляционные связи.

При функциональной связи изменение результативного признака полностью зависит от изменения факторного признака :

Примером функциональной связи в экономике может служить зависимость про­изводительности труда от объема произведенной продукции и затрат рабочего времени. Следует отметить, что если – детерминирован­ная, не случайная величина, то и функционально зависящая от нее ве­личина тоже является детерминированной.

Для функциональной связи характерны следующие особен­ности:

1) каждому значению величины факторного признака соответствует только одно или несколько точно определенных значений результативного признака:

2) эта связь обычно выражается формулами, что в большей степени присуще точным наукам (математике, физике):

3) функциональная зависимость с одинаковой силой проявляется у всех единиц в совокупности;

4) она является полной и точной, так как обычно известны перечень всех факторов и механизм их воздействия на результативный признак (в виде уравнения).

Однако гораздо чаше в экономике имеет место не функциональ­ная, а статистическая зависимость , когда каждому фиксированному значению независимой переменной соответствует не одно, а множе­ство значений зависимой переменной , причем заранее нельзя ска­зать, какое именно значение примет . Это связано с тем, что на , кроме переменной , влияют и многочисленные неконтролируемые случайные факторы. В этой ситуации – случайная величина, а пе­ременная может быть как детерминированной, так и случайной ве­личиной. Частным случаем статистической зависимости является кор­реляционная , при которой функциональной зависимостью связаны фактор и среднее значение (математическое ожидание) результатив­ного показателя .


При корреляционной связи изменение результативного признака не всецело зависит от факторного признака , а лишь частично, так как возможно влияние прочих факторов :

Примером корреляционной связи показателей коммерческой деятельности является зависимость сумм издержек обращения от объема товарооборота. В этой связи, помимо факторного признака - объема товарооборота , на результативный признак (сумму издержек обращения ) влияют и другие факторы, в том числе и не учтенные .

Корреляционные связи имеют следующие особенности:

1) средняя величина результативною признака меняемся под влиянием изменения многих факторных признаков, ряд из которых может быть неизвестен;

2) разнообразие факторов, их взаимосвязи и противоречивое действие вызывают широкое варьирование результативного npизнака;

3) корреляционные связи обнаруживаются не в единичных случаях, а в массе, для их исследования требуются массовые на­блюдения;

4) связь между признаками-факторами и результативным при­знаком неполная, а проявляется лишь в общем, среднем.

Изучая взаимосвязи между признаками, их классифицируют по направлению, форме, числу факторов:

· по направлению связи делятся на прямые и обратные. При прямой связи направление изменения результа­тивного признака совпадает с направлением изменения призна­ка-фактора. С увеличением (уменьшением) значений факторного признака происходит увеличение (уменьшение) результативного признака.Обратные связи характеризуются тем, что направление изме­нения результативного признака не совпадает с направлением изменения признака-фактора. С увеличением (уменьшением) значений факторного признака происходит уменьшение (увели­чение) результативного признака. Например, чем выше квалификация рабочего, тем выше уровень производительности его труда (прямая связь). Чем выше производительность труда, тем ниже себестоимость единицы продукции (обратная связь);

· по форме (виду функции) связи делят на линейные (прямолинейные) и нелинейные (криволинейные).Линейная связьотображается прямой линией, нелинейная связь – кривой (параболой, гиперболой и т.д.). При наличии этих связей с возрастанием значения факторного признака происходит равномерное возрастание (или убывание) значения результативного признака;

по количеству факторов, действующих на результативный признак , связи подразделяются на однофакторные (парные) и многофакторные.Однофакторные (парные) связи отражают зависимость между одним признаком-фактором и результативным признаком (при абстрагировании от влияния других признаков). Многофакторные (множественные) связи характеризуются зависимостью между несколькими факторными признаками и результативным признаком (факторы действуют комплексно, т.е. одновременно и во взаимосвязи).

Для изучения связей и их количественного выражения в статистике используются различные методы.

Для выражения функциональных связей применяют балансовый метод и метод компонентных связей.

Метод балансовых построений широко используют для анализа связей и пропорций в экономике. Статистический баланс представляет собой систему показателей, которая состоит из двух сумм абсолютных величин, связанных знаком равенства:

Примером балансов такого рода служат баланс основных средств и баланс трудовых ресурсов в какой-нибудь организации. Суммы показателей в них образуют систему величин, характеризующих размер ресур­сов на начало периода, поступление и выбытие по источникам, размер ресурсов на конец периода. Например, , где – остаток товаров на начало отчетного периода; – поступление товаров за период; – выбытие товаров в изучаемом периоде; – остаток товаров на конец отчетного периода.

Левая часть формулы характеризует предложение товаров , а правая часть – использование товарных ресурсов .Посредством балансов связывают в единую систему абсолютные величины, показывающие движение ресурсов.

Данную сумму можно представить следующим равенством: остаток на начало + приход = расход + остаток на конец. Пример, продано в розницу = остаток на начало + приход – продано оптом – остаток на конец (табл.1).

Таблица 1

Таблица балансового метода

1. Виды и формы связей социально- экономических явлений

2. Основные статистические методы выявления корреляционной связи

3. Корреляционно-регрессионный анализ. Уравнение парной регрессия: экономическая интерпретация и оценка значимости

4. Оценка качества однофакторных линейных моделей

5. Анализ и прогнозирование экономических показателей на основе регрессионных моделей

6. Измерение связей неколичественных переменных

Литература


1. Виды и формы связей социально- экономических явлений

Экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обуславливать случайность данных, которые они определяют. Стохастическая (вероятностная) природа экономических данных обуславливает необходимость применения соответствующих статистических методов для их обработки и анализа.

Статистические распределения характеризуются наличием более или менее значительной вариации в величине признака у отдельных единиц совокупности. Естественно, возникает вопрос о том, какие же причины формируют уровень признака в данной совокупности и каков конкретный вклад каждой из них. Изучение зависимости вариации признака от окружающих условий и составляет содержание теории корреляции.

Изучение действительности показывает, что вариация каждого изучаемого признака находится в тесной связи и взаимодействии с вариацией других признаков, характеризующих исследуемую совокупность единиц. Вариация уровня производительности труда работников предприятий зависит от степени совершенства применяемого оборудования, технологии, организации производства, труда и управления и других самых различных факторов.

При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой первой группы в дальнейшем будем называть признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов, будем называть результативными. Например, при изучении зависимости между производительностью труда рабочих и энерговооруженностью их труда уровень производительности труда является результативным признаком, а энерговооруженность труда рабочих - факторным признаком.

Рассматривая зависимости между признаками, необходимо выделить, прежде всего, две категории зависимости: 1) функциональные и 2) корреляционные.

Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Так, величина начисленной заработной платы при повременной оплате труда зависит от количества отработанных часов.

В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

При сравнении функциональных и корреляционных зависимостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изменении величины факторного признака. В отличие от жесткости функциональной связи корреляционные связи характеризуются множеством причин и следствий и устанавливаются лишь их тенденции. Статистические показатели могут состоять между собой в следующих основных видах связи: балансовой, компонентной, факторной и др.

Балансовая связь - характеризует зависимость между источниками формирования ресурсов (средств) и их использованием.

Остаток на начало отчетного периода;

Поступление за период;

Выбытие в изучаемом периоде;

Остаток на конец отчетного периода.

Левая часть формулы характеризует предложение

а правая часть - использование ресурсов

Компонентные связи показателей характеризуются тем, что изменение статистического показателя определяется изменением компонентов, входящих в этот показатель, как множители:

В статистике компонентные связи используются в индексном методе. Например, индекс товарооборота в фактических ценах представляет произведение двух компонентов, на пример, - индекса товарооборота в сопоставимых ценах и индекса цен , т.е.

Важное значение компонентной связи состоит в том, что она позволяет определять величину одного из неизвестных компонентов:

Факторные связи характеризуются тем, что они проявляются в согласованной вариации изучаемых показателей. При этом одни показатели выступают как факторные, а другие - как результативные.

Факторные связи могут рассматриваться как функциональные и корреляционные.

При функциональной связи изменение результативного признака всецело зависит от изменения факторного признака :

При корреляционной связи изменение результативного признака не всецело зависит от факторного признака , а лишь частично, так как возможно влияние прочих факторов :

Примером корреляционной связи показателей является зависимость сумм издержек обращения от объема товарооборота. В этой связи, помимо факторного признака - объема товарооборота , на результативный признак (сумму издержек обращения ) влияют и другие факторы, в том числе и не учтенные . Поэтому корреляционные связи не являются полными (тесными) зависимостями.

2. Основные статистические методы выявления корреляционной связи

К методам исследования взаимосвязей относятся: метод взаимосвязанных параллельных рядов, балансовый метод, индексный метод, метод аналитических группировок, корреляционные таблицы и графический метод.

Метод взаимосвязанных параллельных рядов состоит в установлении связей между экономическими явлениями посредством сопоставления показателей двух или нескольких рядов. Для этого признак-фактор ранжируется, т.е. располагается в порядке возрастания или убывания признака и соответственно ему записываются значения результативного признака. Путем сравнения взаимосвязанных рядов выявляется наличие связи и ее направление. Можно сравнивать временные и территориальные ряды.

Балансовый метод применяется для анализа связей и пропорций в экономике. Баланс представляет систему показателей, состоящей из равенства ресурсов и их распределения. Схема баланса может быть представлена равенством:

а + б= в + с

(Остаток начальный + Поступление = Расход + Остаток конечный).

Индексный метод - метод анализа компонентных связей. Это вид связей, когда изменение какого-то сложного явления целиком определяется изменением компонентов, входящих в это сложное явление как множители (а= бв, или ). Индексный метод анализа позволяет определить роль отдельных компонентов в совокупном изменении сложного явления.

Метод аналитических группировок - это установление связи между двумя и более признаками группировкой единиц по факторному признаку, а затем в группах вычисление средних и относительных величин результативного признака. Для оценки тесноты связи одновременно с методом группировок рассчитываются коэффициенты детерминации и эмпирическое корреляционное отношение.

Корреляционная таблица охватывает два ряда распределения: один ряд представляет факторный признак, а другой - результативный. Концентрация частот около диагонали, соединяющей левый верхний угол с правым нижним углом таблицы, выражает прямую связь, и наоборот, концентрация частот около диагонали, соединяющей левый. нижний угол с правым верхним углом таблицы, выражает обратную связь. Интенсивная концентрация частот около диагонали таблицы указывает на существование тесной корреляционной связи. Корреляционная таблица дает более правильную характеристику связи при условии, что число групп по двум признакам одинаково.

Графический метод состоит в построении графиков. На графике значения факторного признака наносятся на ось абсцисс, а результативного признака - на ось ординат. Если нанести на график средние значения результативного признака, то получим ломаную линию, которая называется эмпирической линией регрессии.

3. Корреляционно-регрессионный анализ. Уравнение парной регрессия: экономическая интерпретация и оценка значимости

Основная задача корреляционного анализа заключается в выявлении взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции, вычисления и проверки значимости множественных коэффициентов корреляции и детерминации. Кроме того, с помощью корреляционного анализа решаются следующие задачи: отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения степени связи между ними; обнаружение ранее неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между параметрами, но устанавливает численное значение этих связей и достоверность суждений об их наличии.

Регрессионный анализ предназначен для исследования зависимости исследуемой переменной от различных факторов и отображения их взаимосвязи в форме регрессионной модели.

В регрессионных моделях зависимая (объясняемая) переменная Y может быть представлена в виде функции f (X 1 , X 2 , X 3 , … Xm ), где X 1 , X 2 , X 3 , … X m - независимые (объясняющие) переменные, или факторы. В качестве зависимой переменной может выступать практически любой показатель, характеризующий, например, деятельность предприятия или курс ценной бумаги. В зависимости от вида функции f (X 1 , X 2 , X 3 , … Xm ) модели делятся на линейные и нелинейные. В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

Связь между переменной Y и m независимыми факторами можно охарактеризовать функцией регрессии Y= f (X 1 , X 2 , X 3 , … Xm ), которая показывает, каково будет в среднем значение переменной y i , если переменные x i примут конкретные значения.

Данное обстоятельство позволяет использовать модель регрессии не только для анализа, но и для прогнозирования экономических явлений.

Под линейностью здесь имеется в виду, что переменная y предположительно находиться под влиянием переменной x в следующей зависимости:

,

где - постоянная величина (или свободный член уравнения), - коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны данные наблюдений. Это показатель, характеризующий изменение переменной , при изменении значения на единицу. Если - переменные и положительно коррелированные, если < 0 – отрицательно коррелированны; - независимые одинаково распределенные случайные величины – остаток с нулевым математическим ожиданием () и постоянной дисперсией (). Она отражает тот факт, что изменение будет неточно описываться изменением Х – присутствуют другие факторы, неучтенные в данной модели.

Для оценки параметров регрессионного уравнениянаиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонения наблюдаемых значений от модельных значений .

Согласно принципу метода наименьших квадратов, оценки и находятся путем минимизации суммы квадратов

по всем возможным значениям и при заданных (наблюдаемых) значениях. Задача сводится к известной математической задаче поиска точки минимума функции двух переменных. Точка минимума находится путем приравнивания нулю частных производныхфункции по переменным и . Это приводит к системе нормальных уравнений


решением которой и является пара , . С огласно правилам вычисления производных имеем

так что искомые значения , удовлетворяют соотношениям

Эту систему двух уравнений можно записать также в виде

Эта система является системой двух линейных уравнений с двумя неизвестнымии может быть легко решена, например, методом подстановки. В результате получаем

(3.2)


Такое решение может существовать только при выполнении условия

что равносильно отличию от нуля определителя системы нормальных уравнений. Действительно, этот определитель равен

Последнее условие называется условием идентифицируемости модели наблюдений , и означает, что не все значения совпадают между собой. При нарушении этого условия все точки , лежат на однойвертикальной прямой

Оценки и называют оценками наименьших квадратов . Обратим еще раз внимание на полученное выражение для . Нетрудно видеть, что в это выражение входят уже знакомые нам суммы квадратов, участвовавшие ранее в определении выборочной дисперсии

Для двух переменных теоретический коэффициент корреляции определяется следующим образом:

.


где - дисперсии случайных переменных , а их ковариация.

Парный коэффициент корреляции является показателем тесноты связи лишь в случае линейной зависимости между переменнымии обладает следующими основными свойствами:

Коэффициент корреляции принимает значение в интервале (-1,+1), или

| r xy | < 1.

Коэффициент корреляции не зависит от выбора начала отсчета и единицы измерения, т.е.

r (α 1 X +β; α 2 Y +β)=r xy ,

где α 1, α 2 , b - постоянные величины, причем α 1 >0 , α 2 >0.

Случайные величины Х, Y, можно уменьшать (увеличивать) в α раз, а также вычитать или прибавлять к значениям одно и тоже число β - это не приведет к изменению коэффициента корреляции r .

При r = ±1 случайные величинысвязаны линейной зависимостью, т.е.

При r = 0 линейная корреляционная связь отсутствует.

В практических расчетах коэффициент корреляции r генеральной совокупности обычно не известен. По результатам выборки может быть найдена его точечная оценка – выборочный коэффициент корреляции r, так как выборочная совокупность переменных случайна, то в отличие от параметра r , r – случайная величина. Оценкой коэффициента корреляции является выборочный парный коэффициент корреляции:

= , (3.3)

Для оценки значимости коэффициента корреляции применяется t - критерий Стьюдента. При этом фактическое значение этого критерия определяется по формуле:

(3.4)

Вычисленное по этой формуле значение t набл сравнивается с критическим значением t-критерия, которое берется из таблицы значений t Стьюдента с учетом заданного уровня значимости и числа степеней свободы.

Если t набл > t кр, то полученное значение коэффициента корреляции признается значимым (то есть нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И таким образом делается вывод о том, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если значение близко к нулю, связь между переменными слабая. Если случайные величины связаны положительной корреляцией, это означает, что при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать. Если случайные величины связаны отрицательной корреляцией, это означает, что при возрастании одной случайной величины, другая имеет тенденцию в среднем убывать.

4. Оценка качества однофакторных линейных моделей

Качество модели регрессии связывают с адекватностью модели наблюдаемым (эмпирическим) данным. Проверка адекватности (или соответствия) модели регрессии наблюдаемым данным проводится на основе анализа остатков - .

После построения уравнения регрессии мы можем разбить значение у , в каждом наблюдении на две составляющих - и ; (4.1)

Остаток представляет собой отклонение фактического значения зависимой переменной от значения данной переменной, полученное расчетным путем: (). Если (), то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции ) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак полностью обусловлен влиянием фактора .

На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т. е. отклонения эмпирических данных от теоретических (). Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения.

При анализе качества модели регрессии используется основное положение дисперсионного анализа, согласно которому общая сумма квадратов отклонений зависимой переменной от среднего значения может быть разложена на две составляющие - объясненную и необъясненную уравнением регрессии дисперсии:

где- значения y , вычисленные по модели .

Разделив правую и левую часть (4.2) на

.

Коэффициент детерминации определяется следующим образом:

(4.3)

Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием изучаемых факторов, т. е. определяет, какая доля вариации признака Y учтена в модели и обусловлена влиянием на него факторов.

Чем ближе к 1, тем выше качество модели.

Для оценки качества регрессионных моделей целесообразно также использовать коэффициент множественной корреляции (индекс корреляции

R R = = (4.4)

Данный коэффициент является универсальным, так как он отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных.

При построении однофакторной модели он равен коэффициенту линейной корреляции

Очевидно, что чем меньше влияние неучтенных факторов, тем лучше модель соответствует фактическим данным. Также для оценки точности регрессионных моделей целесообразно использовать среднюю относительную ошибку аппроксимации:

(4.5)

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7 % свидетельствует о хорошем качестве модели.

После того как уравнение регрессии построено, выполняется проверка значимости построенного уравнения в целом и отдельных параметров.

Оценить значимость уравнения регрессии – это означает установить, соответствует ли математическая модель, выражающая зависимость между Y и Х, фактическим данным и достаточно ли включенных в уравнение объясняющих переменных Х для описания зависимой переменной Y

Оценка значимости уравнения регрессии производится для того, чтобы узнать, пригодно уравнение регрессии для практического использования (например, для прогноза) или нет. При этом выдвигают основную гипотезу о незначимости уравнения в целом, которая формально сводится к гипотезе о равенстве нулю параметров регрессии, или, что то же самое, о равенстве нулю коэффициента детерминации: . Альтернативная ей гипотеза о значимости уравнения - гипотеза о неравенстве нулю параметров регрессии.

Для проверки значимости модели регрессии используется F-критерий Фишера , вычисляемый как отношение дисперсии исходного ряда и несмещенной дисперсии остаточной компоненты. Если расчетное значение с n 1 = k и n 2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой. Для модели парной регрессии:

(4.6)

В качестве меры точности применяют несмещенную оценку дисперсии остаточной компоненты, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n- k -1), где k – количество факторов, включенных в модель. Квадратный корень из этой величины () называется стандартной ошибкой оценки .

(4.7)


Для модели парной регрессии

Анализ статистической значимости параметров модели парной регрессии

Значения , соответствующие данным при теоретических значениях и являются случайными. Случайными являются и рассчитанные по ним значения коэффициентов и .

Надежность получаемых оценок и зависит от дисперсии случайных отклонений (ошибок). По данным выборки эти отклонения и, соответственно, их дисперсия не оцениваются – в расчетах используются отклонения зависимой переменной от ее расчетных значений : . Так как ошибки (остатки) нормально распределены, то среднеквадратическое отклонение ошибок используется для измерения этой вариации. Среднеквадратические отклонения коэффициентов известны как стандартные ошибки (отклонения ):

(4.8)


где - среднее значение независимой переменной х;

стандартная ошибка, вычисляемая по формуле (4.8);

.

Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t–статистики) для соответствующих коэффициентов регрессии:

(4.9)

Затем расчетные значения сравниваются с табличными t табл . Табличное значение критерия определяется при (n- 2) степенях свободы (n - число наблюдений) и соответствующем уровне значимости a (0,1; 0,05)

Если расчетное значение t-критерия с (n - 2) степенями свободы превосходит его табличное значение при заданном уровне значимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует исключить из модели (при этом ее качество не ухудшится).

По имеющейся информации о результатах деятельности 19 Российских предприятий, стоящих по рейтингу на первых позициях, построить уравнение линейной зависимости прибыли предприятий от размера собственного капитала.

Собранный статистический материал представлен в таблице 1.


Таблица 1. Данные о величине собственного капитала и прибыли Российских предприятий за 2005

Рейтинг Название предприятия Собственный капитал, млн. руб. Прибыль, млн. руб.
1 2 3 4
1 "Газпром" 2772000 348400
2 РЖД 1851000 237545
3 ОАО "Сургутнефтегаз" 707913 214479
4 РАО "ЕЭС России" 386200 203448
5 Нефтяная компания "ЛУКойл" 222156 126326
6 ГМК "Норильский никель" 208143 118159
7 ТНК-ВР 165000 110400
8 "Связьинвест" 167572 95700
9 Нефтяная компания "Сибнефть" 153000 84800
10 АФК "Система" 150844 76503
11 Сбербанк России 148000 62929
12 “Татнефть” 103653 36876
13 "Северсталь" 103275 34312
14 Нефтегазовая компания "Славнефть" 101270 29923
15 Евраз Груп 77558 29517
16 "Русал" 75600 28512
17 АК "Транснефть" 46629 4608
18 АвтоВАЗ http://www.tatneft.ru/ 43308 1400
19 Магнитогорский металлургический комбинат 28500 1345

На основании имеющихся данных найдем:

1)уравнение прямой регрессии У = а + bX , где У – прибыль предприятий (результативный признак), Х – размер собственного капитала (факторный признак).

2)тесноту связи между прибылью предприятий с помощью линейного коэффициента корреляции r ху.

Получили, что коэффициенты регрессии а = 51,61 и b = 0,115. Таким образом, уравнение зависимости прибыли предприятий (У) от величины собственного капитала (Х) имеет вид: У = 51,61 + 0,115Х, т.е. при увеличении размера собственного капитала на 1 млн. руб. прибыль предприятий в среднем увеличивается на 115 тыс. руб.

Коэффициент корреляции r ху = 0,867 свидетельствует о сильной и прямой связи между размером собственного капитала и прибылью организации.

Изобразим графически исходные данные о прибыли и размере собственного капитала и полученную прямую зависимости данных признаков.

5. Анализ и прогнозирование экономических показателей на основе регрессионных моделей

Регрессионные модели могут быть использованы для прогнозирования возможных ожидаемых значений зависимой переменной.

Прогнозируемое значение переменной получается при подстановке в уравнение регрессии

(5.1)

ожидаемой величины фактора . Данный прогноз называется точечным. Значение независимой переменной не должно значительно отличаться от входящих в исследуемую выборку, по которой вычислено уравнение регрессии.

Вероятность реализации точечного прогноза теоретически равна нулю. Поэтому рассчитывается средняя ошибка прогноза или доверительный интервал прогноза с достаточно большой надежностью.

доверительные интервалы, зависят от стандартной ошибки, удаления от своего среднего значения , количества наблюдений n и уровня значимости прогноза α . В частности, для прогноза будущие значения с вероятностью (1 - α ) попадут в интервал


.

6. Измерение связей неколичественных переменных

Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов.

Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками, к которым параметрические методы анализа в их обычном виде неприменимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических.

Оценить тесноту связи между признаками можно с помощью коэффициентов взаимной сопряженности и коэффициентов контингенции или ассоциации.

В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить. Такое упорядочение единиц совокупности по значению признака называется ранжированием. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д.

При ранжировании каждой единице совокупности присваивается ранг, т. е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Например, если у 5-й и 6-й единиц совокупности значения признаков одинаковы, обе получат ранг, равный (5 + 6) / 2 = 5,5.

Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена (р) и Кендэлла ( X ). Эти методы применимы не только для качественных, но и для количественных показателей, особенно при малом объеме совокупности, так как непараметрические методы ранговой корреляции не связаны ни с какими ограничениями относительно характера распределения признака.

Сущность метода Спирмена (Spearman) состоит в следующем:

1) располагают варианты факторного признака по возрастанию - ранжируют единицы по значению признака X;

2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака У.

Если связь между признаками прямая, то с увеличением ранга признака X ранг признака У также будет возрастать; при тесной связи ранги признаков X и У в основном совпадут. При обратной связи возрастанию рангов признака X будет, как правило, соответствовать убывание рангов признака У. В случае отсутствия связи последовательность рангов признака У не будет обнаруживать никакого порядка возрастания или убывания.

Теснота связи между признаками оценивается ранговым коэффициентом корреляции Спирмена (в случае, когда нет связанных рангов):

Квадрат разности рангов;

n – число наблюдений (число пар рангов).

Коэффициент корреляции Спирмена принимает значение в интервале (-1,+1). Чем ближе он к единице, тем более тесня связь между признаками. Знак коэффициента показывает направление связи.


2. Громыко Г.Л. Теория статистики: учеб. – М., Изд-во Инфра-М, 2000.

4. «Практикум по статистике: Учеб. пособие для вузов» / Под ред. В. М. Симчеры / ВЗФЭИ. – М.: ЗАО «Финстатинформ», 2000; Симчера В.М. Практикум по статистике: учеб. пособ. – М. Изд-во Финстатинформ, 1999.

5. Шмойлва Р.А. Практикум по теории статистики: учеб. пособ. – М., Изд-во Финансы и статистика, 2002.

Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. При изучении этих явлений необходимо выявить основные причины, абстрагируясь от второстепенных.

Следует обратить внимание на этапы статистического изучения связей:

1 этап – качественный анализ явления, т.е. анализ природы явления методами экономической теории, социологии, конкретной экономики;

2 этап – построение модели связи;

3 этап – интерпретация результатов.

Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на 2 класса:

1) признаки, обуславливающие изменение других связанных с ними признаков, называются факторными;

2) результативные, изменяющиеся под действием факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты, по направлению и по аналитическому выражению.

В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частым случаем такой связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

По направлению выделяют связь прямую и обратную. По аналитическому выражению выделяют связи прямолинейные (линейные) и нелинейные (криволинейные).

Следует обратить внимание на основные методы выявления наличия связи, ее характера и направления:

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Допустим, имеются данные о двух величинах:

Х – 1 2 3 4 5 6 7 8 9

У – 5 6 9 10 14 17 15 20 23

Мы видим, что с увеличением величины Х величина У также возрастает. Можно сделать предположение, что связь между ними прямая и что ее можно описать или уравнением прямой, или уравнением параболы второго порядка.

Статистическую связь между двумя признаками можно изобразить графически и по графику судить о наличии, направлении и форме связи. На оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного. Соединив полученные точки нанесенных на график значений Х и У прямыми линиями, получается ломаная, которая называется «ломаная регрессии». Число точек ломаной регрессии должно строго соответствовать числу единиц наблюдения, по которым даны значения обоих признаков. Кривая позволит судить о форме связи, об аналитическом ее выражении.



Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Аналитически связь между ними описывается уравнениями прямой, параболы, гиперболы. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о наличии линейной связи между ними, а при обратной связи – гиперболической. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная функция.

Модель регрессии может быть построена как по индивидуальным значениям признака, так и по сгруппированным данным.



Для выявления связи между признаками по достаточно большому числу наблюдений используется корреляционная таблица. В ней можно отобразить только парную связь, т.е. связь результативного признака с одним фактором, и на ее основе построить уравнение регрессии и определить показатели тесноты связи. Само уравнение регрессии может иметь линейную, параболическую и др. формы. Для составления корреляционной таблицы парной связи статистические данные необходимо предварительно сгруппировать по обоим признакам. (Х и У), затем построить таблицу, по строкам в которой отложить группы результативного, а по столбцам – группы факторного признаков.

Корреляционная таблица дает общее представление о направлении связи. Если оба признака (Х и У) располагаются в возрастающем порядке, а частоты (f xy ) сосредоточены по диагонали сверху вниз направо, то можно судить о прямой связи между признаками. В противном случае – об обратной.

О тесноте связи между признаками Х и У по корреляционной таблице можно судить по кучности расположения частот вокруг диагонали (насколько заполнены клетки таблицы в стороне от нее). Если клетки заполнены большими цифрами, то связь слабая. Чем ближе частоты (f xy ) располагаются к одной из диагоналей, тем теснее связь. Если в расположении частот (f xy ) нет системности, то можно судить об отсутствии связи.

Рассмотрим анализ статистических данных по корреляционной таблице, используя данные примера из темы 9 (таблица 9.8). Вначале сгруппируем единицы наблюдения по значениям факторного и результативного признаков, образовав 4 группы. Величина интервала:

Группы для факторного признака:

I - 4 –7 II - 7-10 III – 10-13 IV – 13-16

Группы для результативного признака:

I - 8,43-11,38 III – 14,33 – 17,28 II – 11,38 - 14,33 IV – 17,28-20,23

Т а б л и ц а 11.1 – Корреляционная таблица

Средняя выработка, тыс.р./чел. у Энерговооруженность труда, кВтч/чел-ч, х
f у
8,43-11,38 9,905 -- -- 49,53 272,39
11,38-14,33 12,855 -- -- 38,57 327,80
14,33-17,28 15,805 -- -- -- 15,81 181,76
17,28-20,23 18,755 -- -- -- 18,76 271,95
F х -- 122,6 1053,9
-- 16,5 34,0 11,5 29,0 91,0 -- --
-- 90,75 289,0 132,25 420,5 932,5 -- --
-- 5,08 9,22 13,36 17,5 --- --- ---

Анализ таблицы показывает, что частоты (f xy ) расположены по диагонали сверху вниз, что свидетельствует о наличии прямой связи между энерговооруженностью труда и выработкой. Наблюдается концентрация частот вокруг главной диагонали и незаполненность оставшихся клеток, поэтому можно предположить достаточно тесную связь между рассматриваемыми признаками.

Расчет и анализ средних значений по группам факторных признаков х подтверждает наличие прямолинейной зависимости между х и у .

Считая, что зависимость описывается уравнением прямой (у х =а о +а 1 х ) коэффициенты а о , а 1 определим из системы нормальных уравнений вида:

Отсюда: а 0 = - 2,51; а 1 = 1,38.

Следовательно

Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной) регрессии. Построение моделей множественной регрессии следует осуществлять по этапам:

1) выбор формы связи (уравнения регрессии);

2) отбор факторных признаков;

3) обеспечение достаточного объема совокупности для получения несмещенных оценок.

Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей:

1) линейная: ;

2) степенная: ;

3) показательная: ; (11.2)

4) параболическая: ;

5) гиперболическая: .

Надо иметь в виду, что основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации.

При построении моделей регрессии можно столкнуться с проблемой мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель. Мультиколлинеарность существенно искажает результаты исследования; ее устранение может реализоваться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков. А о наличии мультиколлинеарности можно судить по величине парного коэффициента корреляции ().

В уравнениях регрессии параметр а 0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр а 1 (а 2) коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при изменении факторного на единицу его собственного измерения.

Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки значимости каждого коэффициента регрессии. Значимость коэффициента регрессии осуществляется с помощью t – критерия Стьюдента:

где ai 2 – дисперсия коэффициента регрессии, которая может быть определена по выражению:

где у 2 – дисперсия результативного признака;

к – число факторных признаков.

Параметр модели признается статистически значимым, если t p >t кр (табличное).

Проверка адекватности всей модели осуществляется с помощью величины средней ошибки аппроксимации (Е ):

Значение Е не должно превышать 12-15%.

Важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений является измерение тесноты и направления связи.

Теснота связи при линейной зависимости измеряется с помощью линейного коэффициента корреляции. В статистической теории разработаны и на практике применяются различные модификации формул расчета данного коэффициента:

Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость:

где а i – коэффициент регрессии в уравнении связи;

Среднее квадратическое отклонение соответствующего факторного признака.

Линейный коэффициент корреляции изменяется в пределах от -1 до 1: -1< <1. Знаки коэффициентов регрессии и корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно представить в таблице11.2:

Т а б л и ц а 11.2 – Оценка линейного коэффициента корреляции

Значимость линейного коэффициента корреляции проверяется на основе t – критерия Стьюдента:

Если расчетное значение t p >t кр (табличное), то гипотеза об отсутствии связи отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а следовательно, и о статистической существенности зависимости между х и у . Пример расчета коэффициента корреляции рассмотрен в теме 9 .

Множественный коэффициент корреляции вычисляется при наличии линейной связи между результативными и несколькими факторными признаками, а также между каждой парой факторных признаков:

где 2 – дисперсия теоретических значений результативного признака, рассчитанная по уравнению множественной регрессии;

2 – общая дисперсия результативного признака.

Проверка значимости коэффициента множественной корреляции осуществляется на основе F – критерия Фишера:

Гипотеза о незначительности коэффициента множественной корреляции отвергается, если Fp >Fкр (табличное). R изменяется в пределах от 0 до1 и по определению положителен:

0>R <1.

Следует обратить внимание на статистическую оценку социальных явлений, которая осложняется тем, что многие социальные явления не имеют количественной оценки.

Количественная оценка связей социальных явлений осуществляется на основе расчета и анализа целого ряда коэффициентов.

Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. Для их вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т.е. состоящим из двух качественно отличных друг от друга значений признака.

Т а б л и ц а 11.3 – Таблица для вычисления коэффициентов ассоциации и контингенции

а в а +в
с d c +d
a +c b +d a +b +c +d

Коэффициенты вычисляются по формулам:

Ассоциации:

Контингенции:

При этом К а >К к . связь считается подтвержденной, если К а >0,5 или К к >0,3.

Например, зависимость сокращения рабочих от места работы исследовалась в ходе социологического опроса 200 респондентов, результаты которого представлены в следующей таблице 11.4.

Т а б л и ц а 11.4 – Исходные данные

Коэффициент ассоциации:

Чем ближе величины Кп и Кч к 1, тем теснее связь.

Рассмотрим вспомогательную таблицу для расчета коэффициента взаимной сопряженности (таблица 11.5).

Т а б л и ц а 11.5 – Вспомогательная таблица для расчета коэффициента взаимной сопряженности

у х I II III Всего
I n xy n x
II n x
III n x
Итого n у N y n y n

Например, на основе опроса студентов получены следующие данные (таблица 11.6).

Т а б л и ц а 11.6 – Исходные данные

Существует ли взаимосвязь между ответами на поставленный вопрос и курсом, на котором обучаются студенты?

Для этого рассчитаем коэффициенты Пирсона и Чупрова.

Следовательно, связь между ответами на вопрос и курсом, на котором обучаются студенты, достаточно тесная. Можно предположить, что чем старше студенты, тем более они заинтересованы в увеличении учебной нагрузки по специальным дисциплинам.

| следующая лекция ==>

МЕТОДИЧЕСКИЕ УКАЗАНИЯ С ТИПОВЫМИ ПРИМЕРАМИ

Статистика в современном мире представляет собой систему сбора, обработки и анализа информации. Она призвана обеспечивать количественные оценки и прогноз основных макроэкономических показателей, а также микроэкономических, таких как объемы продаж, степень риска в банковском деле, страховании и производстве, характеристики потребительского поведения населения, демографической и социальной ситуации и т.п.

В условиях рыночной экономики существенно изменились требования управляющих структур к объему, составу, достоверности и оперативности информации. Объективные условия, когда основой экономики становятся не госпредприятия, а миллионы агентов рынка, ведут к переходу от сплошного учета к выборочному по многим системам показателей. На базе выборочных данных и осуществляются статистические построения, позволяющие судить о происходящих в обществе процессах.

В рыночных условиях, когда товаропроизводитель независим и обращение к предприятию, фирме не носит директивный характер, необходимо максимально использовать информационные возможности ограниченных первичных данных для разработки свободной макроэкономической информации. Активное интегрирование экономики России в мировое сообщество потребовало от нее перехода на принятую повсеместно систему учета и статистики, которая позволяет адекватно оценивать социально-экономическое положение страны, говорить с международными партнерами на одном статистическом языке.

Динамизм современной экономики России и регионов требует ежеквартальной, ежемесячной оценки производства и использования валового внутреннего продукта, т.е. анализа итогов деятельности как сферы материального производства, так и секторов экономики - коммерческих банков, страховых компаний, бирж и других элементов рыночной инфраструктуры.

Важное значение приобретают сейчас и технологии сбора, обработки и исследования данных о социально-экономических и демографических процессах, характеризующих экономически активное население, фактическую и скрытую безработицу, уровень жизни и покупательную способность различных слоев населения.

Происходящие в обществе изменения приводят к тому, что наши знания об экономике переходного периода всегда будут отставать от потребностей управления. В связи с этим статистическая деятельность должна содержать прогностическую составляющую, способную заранее сигнализировать о появлении тех или иных «особых» (в том числе и кризисных) ситуаций, если в системе управления не произойдут изменения.

Значительная потребность в экономистах-статистиках сегодня отмечается на микроэкономическом уровне у предприятий, учреждений и фирм различных форм собственности. Следует ожидать, что в этой сфере будет работать большая часть выпускников вузов соот- ветсвующей специальности.

Таким образом, в своей деятельности экономисту-статистику приходится решать вопросы, связанные в той или иной мере со следующими разделами статистической науки:

  • методологией социально-экономических измерителей, определяющей, что именно, какие показатели необходимо измерять для успешного решения основных задач управления социально-экономическими процессами;
  • теорией и практикой выборочных статистических обследований, обеспечивающих необходимый инструментарий для правильной организации выборки и научно обоснованных методов ее математического анализа;
  • методологией современного математико-статистического анализа и прогнозирования социально-экономических данных, обеспечивающей наилучший выбор (в зависимости от поставленных целей) того или иного математико-статистического метода, реализованного в виде проблемно или методоориентированных статистических программных систем.

Все вышесказанное позволяет сформулировать требования к знаниям будущих специалистов. Экономисты-статистики должны получить хорошую гуманитарную, в частности, экономическую, языковую и правовую подготовку, владеть международной методологией статистики, хорошо ориентироваться в методологии экономических, социально-экономических измерений, бухгалтерском учете, быть высококвалифицированными пользователями современных информационных технологий. Они должны владеть методами компьютерных исследований, математико-статистическим инструментарием от элементарных до многомерных статистических методов анализа данных, методами эконометрики и анализа рядов динамики и прогнозирования.

Сегодня нужны специалисты, не только владеющие опытом предыдущих поколений, но и готовые к встрече с новыми постановками задач, обусловленными спецификой России и переходного периода.

В настоящее время экономисты-статистики должны больше внимания уделять совершенствованию и расширению сферы применения статистических методов. Причем их необходимо применять в комплексе с методами математической статистики, моделирования и прогнозирования: это позволяет делать более глубокий анализ явлений и процессов, получать научно обоснованные выводы, более точно определять объективные тенденции и закономерности. Следует отличать статистику как общественную науку от математической статистики, приемы которой применяются при обработке массовых данных как общественных, так и природных явлений. Эти науки имеют много общего. В общественных науках, как и в науках о природе, использование математико-статистических методов предполагает наличие множества факторов или элементов, подвергающихся быстрым изменениям. Отсюда вытекает общность приемов обработки и оценки данных. Различие между ними заключается в том, что математическая статистика как часть математики рассматривает массовые количественные отношения в общем виде, абстраюно, тогда как социально- экономическая статистика изучает их в связи с качеством, конкретными условиями и местом.

В данной теме следует уяснить такие наиболее используемые в экономической практике статистические методы, как корреляционный и регрессионный анализ.

Значительное внимание нужно уделить логическому анализу исходной информации и экономической интерпретации получаемых результатов, а также рассмотрению подробно разработанных типовых примеров, взятых из экономической практики.

Примеры иллюстрируют необходимость комплексного применения многомерных статистических методов. При этом корреляционный анализ используется, с одной стороны, на этапе предварительного анализа для выявления мультиколлинеарности, а с другой стороны - при оценке адекватности регрессионной модели. На окончательном этапе выбора модели рекомендуется применять как экономические, так и статистические критерии. Наряду с точечными оценками рассматриваются методы построения интервальных оценок коэффициентов и уравнений регрессии.

Различают два вида зависимости между экономическими явлениями: функциональную и статистическую. Зависимость между двумя величинами X и У, отображающими два явления, называют функциональной, при этом каждому значению величины X должно соответствовать единственное значение величины У и наоборот. Примером функциональной связи в экономике может служить зависимость производительности труда от объема произведенной продукции и затрат рабочего времени. Следует отметить, что если X - детерминированная, не случайная величина, то и функционально зависящая от нее величина У тоже является детерминированной. Если же X - величина случайная, то и У будет иметь случайный характер.

Однако гораздо чаще в экономике имеет место не функциональная, а статистическая зависимость, когда каждому фиксированному значению независимой переменной X соответствует не одно, а множество значений зависимой переменной У, причем заранее нельзя сказать, какое именно значение примет У. Это связано с тем, что на У, кроме переменной X, влияют и многочисленные неконтролируемые случайные факторы. В этой ситуации У - случайная величина, а переменная X может быть как детерминированной, так и случайной величиной. Частным случаем статистической зависимости является корреляционная, при которой функциональной зависимостью связаны фактор X и среднее значение (математическое ожидание) результативного показателя У.

Статистическая зависимость может быть выявлена лишь по результатам достаточно большого числа наблюдений. Графически статистическая зависимость двух признаков может быть представлена с помощью поля корреляции, при построении которого на оси абсцисс откладывается значение факторного признака X , а по оси ординат - результирующего У.

В качестве примера на рис. 13.1 представлены данные, иллюстрирующие прямую и обратную зависимость между х и у. В случае (а) это прямая зависимость между, к примеру, среднедушевым доходом (л;) и сбережением (у) в семье. В случае (б) речь идет об обратной зависимости. Такова, скажем, зависимость между производительностью труда (х) и себестоимостью единицы продукции (у). На указанном рисунке каждая точка характеризует объект наблюдения со своими значениями X и у.

Рис. 13.1. Поле корреляции: а - прямая зависимость между х и у б - обратная

На рисунке 13.1 также представлены прямые линии, линейные уравнения регрессии типа у = р 0 + Р г т, характеризующие функциональную зависимость между независимой переменной х и средним значением результативного показателя у. Таким образом, по уравнению регрессии, зная х, можно восстановить лишь среднее значение у.

Ставя задачу статистического исследования зависимостей, важно хорошо представлять конечную прикладную цель построения моделей статистической зависимости между результативным показателем, с одной стороны, и объясняющими переменными x v x 2 .... x h - с другой (до сих пор рассматривалась только одна объясняющая переменная л*). Отметим две основных цели подобных исследований.

Первая из них состоит в установлении самого факта наличия (или отсутствия) статистической значимости связи между Y и X. При такой постановке задачи статистический вывод имеет альтернативную природу - «связь есть» или «связи нет». Он обычно сопровождается лишь численной характеристикой - измерителем степени тесноты исследуемой зависимости. Задача оценки степени тесноты связи между показателями решается методами корреляционного анализа. При этом выбор формы связи между результативными показателем Y

и объясняющими переменными х и дг 2 ,___» х к а также выбор состава последних играет вспомогательную роль, призванную максимизировать характеристику степени тесноты связи.

Вторая цель сводится к прогнозу, восстановлению неизвестных индивидуальных или средних значений результативного показателя Y по заданным значениям объясняющих переменных методами регрессионного анализа. При этом выбор формы и вида зависимости Y от объясняющих переменных х и х 2 ,..., х к нацелен на минимализацию суммарной ошибки, т.е. отклонений наблюдаемых значений Y от значений, полученных по регрессионной модели.

Корреляционный анализ - один из методов статистического анализа взаимозависимости нескольких признаков.

Основная его задача состоит в оценке корреляционной матрицы генеральной совокупности по выборке, которая определяется на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.

Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем чем ближе коэффициент корреляции по модулю к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь прямая, а если меньше - обратная.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.

Исходной для анализа является матрица

Размерности п х к у /-я строка которой характеризует /-е наблюдение (объект) по всем к показателям (/" = 1,2,..., к).

В корреляционном анализе матрицу X рассматривают как выборку объема п из А-мерной генеральной совокупности, подчиняющейся A-мерному нормальному закону распределения.

По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средний х, вектор средних квадратических отклонений s и корреляционную матрицу R порядка А:

где х~ - значение j -го показателя для /-го наблюдения;

r jf - выборочный парный коэффициент корреляции, характеризующий

тесноту линейной связи между показателями. При этом r jt является оценкой генерального парного коэффициента корреляции p jt .

Матрица R является симметричной (г и = г;/) и положительно определенной.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка (порядок определяется числом фиксированных переменных). Например, частный коэффициент корреляции - 2)-го порядка между переменными х { и х 2 равен:

где Rj t - алгебраическое дополнение элемента корреляционной матрицы R.

При этом Rji = (-1У + ",

где Mj. - минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания у-й строки из 1-го столбца.

Множественный коэффициент корреляции (к - 1)-го порядка результативного признака л;, определяется по формуле

где Щ - определитель матрицы R.

Значимость частных и парных коэффициентов корреляции, т.е. гипотеза Н 0: р = 0, проверяется по / - критерию Стыодеита. Наблюдаемое значение критерия находится по формуле

где г - оценка частного или парного коэффициента корреляции р;

I - порядок частного коэффициента корреляции, т.е. число фиксируемых переменных (для парного коэффициента корреляции / = 0).

Напомним, что проверяемый коэффициент корреляции считается значимым, т.е. гипотеза Н {) : р = 0 отвергается с вероятностью ошибки а, если / набл по модулю будет больше, чем значение / к0 , определяемое по таблицам /-распределения для заданного аиу = и- /-2.

При определении с надежностью у доверительного интервала для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно устанавливают интервальную оценку для Z:

где t y вычисляют по таблице значений интегральной функции Лапласа из условия Ф(/,) = у,. Значение Z" определяют по таблице Z-npe- образования по найденному значению г. Функция Z"- нечетная, т.е.

Обратный переход от Z к р осуществляется также по таблице Z-преобразования, после использования которой получают интервальную оценку для р с надежностью у.

Таким образом, с вероятностью у гарантируется, что генеральный коэффициент корреляции р будет находиться в интервале (r mjlI , г^).

Значимость множественного коэффициента корреляции (и его квадрата - коэффициента детерминации) проверяется по /^критерию.

Например, для множественного коэффициента корреляции p v2 ..... *

проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т.е. Н 0 : p xil к = 0, а наблюдаемое значение статистики находится по формуле

Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между л*, и остальными переменными х 2 ,..., х к, если F Ha6jI > где F m определяется по таблице F-распределения для заданных a, v = к - 1, v 2 = п - к.

Регрессионный анализ - это статистический метод исследования зависимости результативной величины Y от объясняющих переменных (аргументов) х,- (/ = 1,2, ..., &), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения x f .

Обычно предполагается, что случайная величина Y имеет нормальный закон распределения с условным математическим ожиданием у = Ф(лг„ ..., х к), являющимся функцией от аргументов..., х к с постоянной, не зависящей от аргументов дисперсией сг.

Для проведения регрессионного анализа из + 1)-мерной генеральной совокупности (у, х ]у л: 2 , x Jy ..., х к) берется выборка объемом и, и каждое /-е наблюдение (объект) характеризуется значениями переменных (y h х л, ДГ/2, x U y ..., x ik), где Хц - значениеу-й переменной для y-го наблюдения (/ = 1, 2 ...п), у, - значение результативного признака дляу"-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

где р? - параметры регрессионной модели;

Г. - случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию а 2 .

Отметим, что модель справедлива для всех / = 1, 2,..., п линейна относительно неизвестных параметров Ро, Pi,..., Р„ Р* и аргументов.

Как следует из модели, коэффициент регрессии р, показывает, на какую величину в среднем изменится результативный признак у , если переменную x h увеличить на единицу при неизменных значениях остальных аргументов, т.е. является нормативным коэффициентом. В матричной форме регрессионная модель имеет вид

где Y - случайный вектор-столбец размерности (n х 1) наблюдаемых значений результативного признака

X - матрица размерности п х + 1) наблюдаемых значений аргументов, элемент матрицы х & рассматривается как неслучайная величина (/= 1,2,..., = 0, 1.....k;x i0 = 1);

р - вектор-столбец размерности (А + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии);

е - случайный вектор-столбец размерности (п х 1) ошибок наблюдений (регрессионных остатков), компоненты вектора е, не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Л/е, = 0) и неизвестной постоянной дисперсией a 2 (De., = а 2).

В матричном виде модель регрессии

В первом столбце матрицы X указываются единицы при наличии свободного члена в модели. Здесь предполагается, что существует переменная лг 0 , которая во всех наблюдениях принимает значения, равные 1.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии ро, Pi,..., Р у, ..., р* модели, т.е. вектора р.

Так как в регрессионном анализе х, рассматривается как неслучайные величины, а Me, = 0, то уравнение регрессии имеет вид:

для всех / = 1,2,я, или в матричной форме:

где Y -вектор-столбец с элементами

Для оценки вектора-столбца р наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец Ь, который минимизирует сумму квадратов отклонений наблюдаемых значений y h от модельных значений у,-, т.е. квадратичную форму:

где символом Т обозначена транспонированная матрица.

Наблюдаемые и модельные значения результативного признака у показаны на рис. 13.2.


Рис. 13.2.

Дифференцируя квадратичную форму О по и приравнивая частные производные к нулю, получим систему уравнений:

решая которую получим вектор-столбец оценок b , где b = (6 0 , 6„ Ь к) т. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле

где X 1 - транспонированная матрица.V;

(Х Г Х)~ 1 - матрица, обратная матрице Х Т Х.

Зная вектор-столбец 6-оценок коэффициентов регрессии, найдем оценку у уравнения регрессии:

или в матричном виде:

где - вектор расчетных значений результативного показателя.

Оценка ковариационной матрицы вектора коэффициентов регрессии определяется выражением:

где s 2 - несмещенная оценка остаточной дисперсии о 2 , равная:

На главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии:

Значимость уравнения регрессии, т.е. гипотеза Я 0: р = О, или что (р 0 = Р! = ... = р* = 0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле

где

По таблице ^-распределения для заданных а и vi = к + 1, уг = л - - к- находятF Kp .

Гипотеза Я и отклоняется с вероятностью а, если Я набл > F Kp . Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Но : р, = 0, где j = 1,2,..., к , используют /-критерий и вычисляют / на бл(А) = bj /Sfy. По таблице /-распределения для заданного а и v = п - к - 1 находят / кт.

Гипотеза Я 0 отвергается с вероятностью а, если j/ Ha6 J > t Kр. Из этого следует, что соответствующий коэффициент регрессии р/ значим, т.е. Р/ Ф 0 и переменную х,- следует включить в модель. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. После проверки значимости коэффициентов регрессии реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение / на6л После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со всеми значимыми по экономическим и статистическим критериям коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.

Наряду с точечными оценками b h генеральных коэффициентов регрессии р, регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью у.

Интервальная оценка с доверительной вероятностью у для параметра (З у имеет вид:

где / а находят по таблице /-распределения при вероятности а = 1 и числе степеней свободы v = п-к - 1.

Интервальная оценка показывает, на какую величину в лучшем и худшем случае изменится с доверительной вероятностью у величина у, если х,- увеличить на единицу.

Интервальная оценка для уравнения регрессии у в точке, определяемой вектором-столбцом начальных условий

записывается в виде

Интервал предсказания у „., с доверительной вероятностью у определяется как

где / а определяется по таблице /-распределения при v=l hv = п-к- 1.

По мере удаления вектора начальных условий х° от вектора средних х ширина доверительного интервала при заданном значении у будет увеличиваться (рис. 13.3), где х = (1, ... 9 х к).

Рис. 13.3. Точечная;" и интервальная [у-5

Одним из основных препятствий эффективного применения множественного регрессионного анализа является мулътиколлииеар- ность. Она связана с линейной зависимостью между аргументами х 2 , .... х к. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица Х Г Х становятся слабообусловлен- ными, т.е. их определители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрессии, завышению дисперсии s 2 h оценок коэффициентов b h так как в их

выражения входит обратная матрица (Х Г Х) Л, получение которой связано с делением на определитель матрицы (Х*Х). Отсюда следуют заниженные значения Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. f > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать только один из показателей - x t или д

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

Пример 1. Согласно данным 20 сельскохозяйственных районов (п = 20), требуется построить регрессионную модель урожайности на основе следующих показателей:

у - урожайность зерновых культур (ц/га); т, - число колесных тракторов (приведенной мощ§юсти) на 100 га; х 2 - число зерноуборочных комбайнов на 100 га; х 3 - число орудий поверхностной обработки почвы на 100 га; х 4 - количество удобрений, расходуемых на гектар; х 5 - количество химических средств оздоровления растений, расходуемых на гектар.

Исходные данные для анализа приведены в табл. 13.1.

Исходные данные для анализа

Таблица 13.1

Решение. С целью предварительного анализа взаимосвязи показателей построена матрица R.

Таблица 13.2

Парные коэффициенты корреляции

Анализ матрицы парных коэффициентов корреляции показывает, что результативный признак наиболее тесно связан с показателем дг 4 - количеством удобрений, расходуемых на гектар

В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (л,) и числом орудий поверхностной обработки почвы

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции:

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели:

В скобках указаны / Н авя(Р/) = h - расчетные значения /-критерия для проверки гипотезы о значимости коэффициента регрессии Я и: Р, = О, j = 1, 2, 3, 4, 5. Критическое значение / кп = 1,76 найдено по таблице /-распределения при уровне значимости a = 0,1 и числе степеней свободы v = 14.

Из уравнения следует, что статистически значимым является коэффициент регрессии только при лг 4 , так как Не

поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при х х и х 5 , которые свидетельствуют о том, что повышение насыщенности сельского хозяйства колесными тракторами (*,) и химическими средствами оздоровления растений (х 5) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (л* ь х 2 или лг 3), получаем окончательное уравнение регрессии:

Уравнение значимо при а = 0,05 , так как F Ha6n = 266 > F KO = 3,20, найденного по таблице F-распределения при а = 0,05, v = 3 и v = 17. Значимы и коэффициенты регрессии pi и Р4, так как |/ набл | > /„,= 2,1 (при а = 0,05, v = 17). Коэффициент регрессии pi следует признать значимым (Pi ф 0) из экономических соображений; при этом /, = 2,09 лишь незначительно меньше /„, = 2,11. В случае если а = 0,1, /„, = 1,74, и коэффициент регрессии Pi статистически значим.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднем на 0,345 ц/га (/>, = 0,345).

Коэффициенты эластичности Э| = 0,068 и Э 4 = 0,161

показывают, что при увеличении показателей х х и х 4

на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации г 2 = 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедшими в модель показателями (*, и х 4), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (* 2 , х 3 , х$, погодными условиями и др.). Средняя относительная ошибка аппроксимации 5 = 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s 2 = 1,97.

Статистические методы прогнозирования

Трендовые модели прогнозирования. Статистические наблюдения в социально-экономических исследованиях обычно проводятся регулярно через равные отрезки времени и представляются в виде временных рядов x t , где t = 1, 2, ..., п. В качестве инструмента статистического прогнозирования временных рядов служат трендовые регрессионные модели, параметры которых оцениваются по имеющейся статистической базе, а затем основные тенденции (тренды) экстраполируются на заданный интервал времени.

Методология статистического прогнозирования предполагает построение и испытание многих моделей для каждого временного ряда, сравнение их на основе статистических критериев и отбор наилучших из них для прогнозирования.

При моделировании сезонных явлений в статистических исследованиях различают два типа колебаний: мультипликативные и аддитивные. В мультипликативном случае размах сезонных колебаний изменяется во времени пропорционально уровню тренда и отражается в статистической модели множителем. При аддитивной сезонности предполагается, что амплитуда сезонных отклонений постоянна и не зависит от уровня тренда, а сами колебания представлены в модели слагаемым.

Основой большинства методов прогнозирования является экстраполяция, связанная с распространением закономерностей, связей и соотношений, действующих в изучаемом периоде, за его пределы или - в более широком смысле слова - это получение представлений о будущем на основе информации, относящейся к прошлому и настоящему.

Наиболее известны и широко применяются трендовые и адаптивные методы прогнозирования. Среди последних можно выделить такие, как методы авторегрессии и скользящего среднего (Бокса-Дженкинса и адаптивной фильтрации), методы экспоненциального сглаживания (модели Хольта, Брауна и экспоненциальной средней) и др.

Для оценки качества исследуемой модели прогноза используется несколько статистических критериев.

Наиболее распространенными критериями являются следующие:

Относительная ошибка аппроксимации:

где е, = х, -х, - ошибка прогноза;

х, - фактическое значение показателя; х ( - прогнозируемое значение.

Данный показатель используется в случае сравнения точности прогнозов по нескольким моделям. При этом считают, что точность модели является высокой, когда 8

Средняя квадратическая ошибка:

где к - число оцениваемых коэффициентов уравнения.

Наряду с точечным в практике прогнозирования широко используют интервальный прогноз. При этом доверительный интервал чаще всего задается неравенствами

где t u - табличное значение, определяемое по /-распределению Стьюдента при уровне значимости а и числе степеней свободы п - к.

В литературе представлено большое число математико-статистических моделей для адекватного описания разнообразных тенденций временных рядов.

Наиболее распространенными видами трендовых моделей кривых роста, характеризующих монотонное возрастание или убывание исследуемого явления, являются:

Правильно выбранная модель должна соответствовать характеру изменений тенденции исследуемого явления. При этом величина е, должна носить случайный характер с нулевой средней.

Кроме того, ошибки аппроксимации е ( должны быть независимыми между собой и подчиняться нормальному закону распределения

c t e N (0, о). Независимость ошибок т.е. отсутствие автокорреляции

остатков, обычно проверяется по критерию Дарбина-Уотсона, основанного на статистике:

где е (=х ( - х (.

Если отклонения не коррелированны, то величина DW приблизительно равна двум. При наличии положительной автокорреляции 0 DW DW

О коррелированности остатков можно также судить по коррело- грамме для отклонений от тренда, которая представляет собой графики функции относительно т коэффициента автокорреляции, который вычисляется по формуле

где т = 0,1,2.....

После выбора наиболее подходящей аналитической функции для тренда его используют для прогнозирования на основе экстраполяции на заданное число временных интервалов.

Рассмотрим задачу сглаживания сезонных колебаний, исходя из ряда V t = x t -x t , где x t - значение исходного временного ряда в момент /,

а л- -оценка соответствующего значения тренда (t= 1,2,...»п).

Так как сезонные колебания представляют собой циклический, повторяющийся во времени процесс, то в качестве сглаживающих функций используется гармонический ряд (ряд Фурье) следующего вида:

Оценки параметров а. и (3, в модели определяют из выражений:

где - максимально допустимое число гармоник;

Угловая частота /-й гармоники (/ = 1,2,...,т ).

Пусть т - число гармоник, используемых для сглаживания сезонных колебаний (т

а расчетные значения временного ряда исходного показателя определяются по формуле

Адаптивные методы прогнозирования. При использовании трендовых моделей в прогнозировании обычно предполагается, что основные факторы и тенденции прошлого периода сохраняются на период прогноза или что можно обосновать и учесть направление из изменений в перспективе. Однако в настоящее время, когда происходит структурная перестройка экономики, социально-экономические процессы даже на макроуровне становятся очень динамичными. В этой связи исследователь часто имеет дело с новыми явлениями и с короткими временными рядами. При этом устаревшие данные при моделировании часто оказываются бесполезными и даже вредными. Таким образом, возникает необходимость строить модели, опираясь в основном на малое количество самых свежих данных, наделяя модели адаптивными свойствами.

Важную роль в деле совершенствования прогнозирования должны сыграть адаптивные методы, цель которых заключается в построении самонастраивающихся моделей, которые способны учитывать информационную ценность различных членов временного ряда и давать достаточно точные оценки будущих членов данного ряда. Адаптивные модели гибки, однако на их универсальность, пригодность для любого временного ряда рассчитывать не приходится.

При построении конкретных моделей необходимо учитывать наиболее вероятные закономерности развития реального процесса. Исследователь должен закладывать в модель только те адаптивные свойства, которые необходимы для слежения за реальным процессом с заданной точностью.

В основе адаптивного направления лежит простейшая модель экспоненциального сглаживания, обобщение которой привело к появлению целого семейства адаптивных моделей. Простейшая адаптивная модель основывается на вычислении экспоненциально взвешенной скользящей средней.

Экспоненциальное сглаживание исходного временного ряда x t осуществляется по рекуррентной формуле

где S, - значение экспоненциальной средней в момент /;

5,|- в момент/-!;

а - параметр сглаживания, адаптации.

Выражение экспоненциальной средней можно представить в виде:

В этой формуле экспоненциальная средняя в момент t выражена как сумма экспоненциальной средней предшествующего момента 5,_, и доли а отклонения текущего наблюдения x t от экспоненциальной средней момента / - 1.

Последовательно используя рекуррентное соотношение, можно выразить экспоненциальную среднюю S, через все предшествующие значения временного ряда:

где S a - величина, характеризующая начальные условия для первого применения формулы средней, при /=1.

Отсюда следует, что

т.е. величина S , оказывается взвешенной суммой всех членов ряда. При этом веса изменяются экспоненциально в зависимости от давности наблюдения, откуда и название S t - экспоненциальная средняя.

Из последней формулы следует, что увеличение веса более свежих наблюдений может быть достигнуто повышением а .. В то же время для сглаживания случайных колебаний временного ряда х, величину а нужно уменьшить. Два названных требования находятся в противоречии и на практике при выборе а исходят из компромиссного решения.

Экспоненциальное сглаживание является простейшим видом самообучающейся модели с параметром адаптации а . Разработано несколько вариантов адаптивных моделей, которые используют процедуру экспоненциального сглаживания и позволяют учесть наличие у временного ряда х , тенденций и сезонных колебаний. Рассмотрим некоторые из таких моделей.

Адаптивная полиномиальная модель первого порядка. Рассмотрим алгоритм экспоненциального сглаживания, предполагающий наличие у временного ряда x t линейного тренда. В основе модели лежит гипотеза о том, что прогноз может быть получен по уравнению

где.?.(/) - прогнозируемое значение временного ряда на момент (/ + т);

a ir xa 2( - оценки адаптивных коэффициентов полинома первого порядка в момент /; т - величина упреждения.

Экспоненциальные средние 1-го и 2-го порядка для модели имеют вид

где (5= 1 , а оценка модельного значения ряда с периодом упреждения т равна

Для определения начальных условий первоначально по данным временного ряда находим методом наименьших квадратов оценки линейного тренда:

и принимаем Тогда начальные условия определяются как:

ЗАДАЧИ И УПРАЖНЕНИЯ

1. В таблице 13.3 представлены темпы прироста (%) следующих макроэкономических показателей десяти развитых стран мира: ВНП (*,), промышленного производства (д 2), индекса цеп (д 3) и доли безработных (д 4).

Таблица 13.3

Требуется:

  • 1) найти оценку коэффициента корреляции между темпами прироста ВНП (д,) и промышленного производства (д 2), при а = 0,05 проверить его значимость, а при у= 0,923 найти его интервальную оценку;
  • 2) оценить тесноту связи между д, и д 3 , при а = 0,05 проверить значимость коэффициента корреляции между этими показателями, а при у= 0,857 найти интервальную оценку для р и;
  • 3) найти точечную и интервальную оценку коэффициента корреляции д 2 по д 3 , приняв у = 0,95;
  • 4) определить долю дисперсии д 2 , обусловленную влиянием д 4 ;
  • 5) при а - 0,05 проверить значимость, а при у = 0,888 найти интервальную оценку коэффициента корреляции между д 3 и д 4 .
  • 2. При исследовании взаимосвязи цен на следующие виды продовольственных товаров: говядина (Д|), растительное масло (д 2), сахар- песок (д 3) и хлеб белый в/с (д 4) в п = 22 городах Центрального района России получена матрица парных коэффициентов корреляции:

Для трехмерной совокупностиx l9 х 2 истребуется:

  • 1) построить матрицу парных коэффициентов корреляции;
  • 2) при а = 0,1 проверить значимость частного коэффициента корреляции р Щ4) и найти его интервальную оценку при у = 0,954. Сравнить полученные результаты.

Как влияет показатель х А на тесноту связи между х, и х 2 ?

  • 3) при а = 0,05 проверить значимость множественного коэффициента корреляции /?4
  • 3. По данным задачи 1.5 для трехмерной совокупности х 2 , С? *4 требуется:
  • 1) построить матрицу парных коэффициентов корреляции R;
  • 2) при а = 0,01 проверить значимость частного коэффициента корреляции /э 2 з и найти его интервальную оценку при у = 0,9. Сравнить полученные результаты. Как влияет показатель х 4 на тесноту связи между Л"з и х 2 ?
  • 3) при (У.=0,05 проверить значимость множественного коэффициента корреляции /? 2(3 4>. Дайте интерпретацию г, 2 (34) .
  • 4. На основании данных о динамике темпов прироста курса акций за 5 месяцев, приведенных в табл. 13.4.

Таблица 13.4

и предположения, что генеральное уравнение регрессии имеет вид у - Р 0 4-Pjjf, требуется:

  • 1) определить оценки Ъ 0 и 6, параметров уравнения регрессии и остаточной дисперсии s 2 ;
  • 2) проверить при а = 0,01 значимость коэффициента регрессии, т.е. гипотезы Н 0: р, = 0;
  • 3) с надежностью у= 0,95 найти интервальные оценки параметров Ро и р,;
  • 4) с надежностью у = 0,9 установить интервальную оценку условного математического ожидания у при х 0 = 4;
  • 5) определить при у = 0,9 доверительный интервал предсказания у п+] в точке х = 5.
  • 5. Себестоимость (у) одного экземпляра книги в зависимости от тиража (х) (тыс. экз.) характеризуется данными, собранными издательством (табл. 13.5). Определить МНК-оценки Ь 0 и Ь } параметров уравнения регрессии гиперболического вида у = Р 0 +Р, -, с надежностью

у = 0,9 построить доверительные интервалы для параметров р 0 и р, а также условного математического ожидания у при х = 10.

Таблица 13.5

Тираж (х), тыс. экз.

Себестоимость (у)

6. В таблице 13.6 представлены данные о темпах прироста (%) следующих макроэкономических показателей п = 10 развитых стран мира за 1992 г. : ВНП -х 19 промышленного производства -х 2 , индекса цен -х у

Таблица 13.6

Примем за объясняемую величину (у) показатель х ь а за объясняющую (х) переменную х 2 и предположим, что уравнение регрессии имеет вид:

Требуется:

  • 1) определить (с учетом линеаризации уравнения) МНК-оценки Ьо и Ь, параметров уравнения регрессии, оценку s 2 остаточной дисперсии;
  • 2) проверить при а = 0,05 значимость коэффициента регрессии, т.е. Н„: р, = 0;
  • 3) с надежностью у = 0,9 найти интервальные оценки р 0 и р,;
  • 4) найти при у = 0,95 доверительный интервал для у в точке х 0 = = x h где / = 5;
  • 5) сравнить статистические характеристики уравнений регрессий: 1, 2 и 3.
  • 7. Задачу 6 решить, приняв за объясняемую величину (у) показатель х ь а за объясняющую (х) переменнуюх 3 .
  • 8. В таблице 13.7 представлены следующие макроэкономические показателя США за 10 лет: ВНП (х,) в млрд дол.; доля безработных (х 2) в %; индекс цен (х 3) в %; объем экспорта (х 4) в млрд дол. и объем импорта (х 5) в млрд дол.

Для показателя ВНП (х,) требуется:

1) найти (с учетом линеаризации уравнения) МНК-оценку тренда, который определяется уравнением вида:

  • 2) проверить при а = 0,05 гипотезу Н 0: Pi = 0 и дать экономическую интерпретацию коэффициенту регрессии;
  • 3) рассчитать и сравнить статистические характеристики трендов: s 2 ; 8 и DW.

Таблица 13.7

  • 9. Задачу 8 решить для показателя х 2 - доля безработных (в %).
  • 10. Задачу 8 решить для показателя х 3 - индекс цеп (в %).
  • 11. Задачу 8 решить для показателя х 4 - объем экспорта (в млрд

12. В таблице 13.8 представлены данные по месяцам 2004 г. о числе заключенных в регионе браков х,.

Таблица 13.8

Требуется:

1) найти (с учетом линеаризации уравнения) МНК-оценку уравнения регрессии вида

где - угловая частота;

  • б) 0;
  • в) 0,4;
  • г) 1,3?
  • 2. Известно, что х 3 усиливает связь между величинами х { и х 2 . По результатам наблюдений получен частный коэффициент корреляции г 12(3) = -0,45. Какое значение может принять парный коэффициент

корреляции г 12:

  • а) 0,4;
  • б) 0,2;
  • в) -0,8;
  • г) 1,2?
  • 3. Множественный коэффициент корреляции г 1(23) =0,8. Определите, какой процент дисперсии величины.т, объясняется влиянием
  • * 2 и * 3:
    • а) 28%;
    • б) 32%;
    • в) 64%;
    • г) 80%.
    • 4. Что минимизируется согласно методу наименьших квадратов:

5. Дана ковариационная матрица вектора

Чему равна оценка дисперсии элемента Ь 2 вектора Ь, т.е.

  • а) 5,52;
  • б) 0,04;
  • в) 0,01;
  • г) 2,21?
  • 6. Уравнению регрессии у = 2,88-0,72.v, -1,51л соответствует множественный коэффициент корреляции r v(12) = 0,84. Какая доля

вариации результативного показателя у (в %) объясняется входящими в уравнение регрессии переменными х , и х 2:

  • а) 70,6;
  • б) 16,0;
  • в) 84,0;
  • г) 29,4?

КОНТРОЛЬНЫЕ ВОПРОСЫ

  • 1. Что характеризует парный, частный и множественный коэффициенты корреляции? Сформулируйте их основные свойства.
  • 2. Какие задачи решаются методами регрессионного анализа?
  • 3. В чем состоят отрицательные последствия мультиколлинеарности и как можно избавиться от этого негативного явления?
  • 4. Что характеризуют коэффициенты регрессии в линейной и степенной моделях?
  • 5. Как проверяется значимость уравнения регрессии и коэффициентов регрессии?
  • 6. Какие модели прогнозирования вы знаете и каковы их особенности?
  • 7. В чем состоит статистический подход к прогнозированию, моделированию тенденций и сезонных явлений в статистических исследованиях?
  • 8. Какие трендовые модели вам известны и как оценивается их качество?
  • 9. В чем особенность адаптивных методов прогнозирования?
  • 10. Каким образом осуществляется экспоненциальное сглаживание временного ряда?

ЛИТЕРАТУРА

Айвазян С.А. Мхитарян В.С. Прикладная статистика и основы эконометрики: в 2 т. М: ЮНИТИ, 2001

Статистика: учебник / под ред. В.С. Мхитаряна. М. : Экономика, 2003.

Теория статистики: учебник / под ред. Р.А. Шмойловой. М. : Финансы и статистика, 2007.

II.СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ДИНАМИКИ

2.1. Виды и элементы временных рядов

Процесс развития, движения социально-экономических явлений во времени в статистике принято называть динамикой. Для отображения динамики строят ряды динамики (хронологические, временные), которые представляют собой ряды изменяющихся во времени значений статистического показателя, расположенных в хронологическом порядке.

Составными элементами ряда динамики являются показатели уровней ряда и показатели времени (годы, кварталы, месяцы, сутки) или моменты (даты) времени. Если удается выявить определенную тенденцию изменения фактических значений, то ее можно использовать для прогнозирования будущих значений данного показателя. Множество данных, в которых время является независимой переменной, называется временным рядом.

Существуют различные виды рядов динамики. Их можно классифицировать по следующим признакам:

1) В зависимости от способа выражения уровней ряды динамики подразделяются на ряды абсолютных, относительных и средних величин. Примером рядов динамики указанных выше видов являются данные таблицы.2.1:

В таблице 2.1 рядом динамики абсолютных величин являются данные первой строки; рядом средних величин - второй строки; рядом относительных величин - третьей строки.

2) В зависимости от того, выражают уровни ряда состояние явления на определенные моменты времени (на начало месяца, квартала, года и т.п.) или его величину за определенные интервалы времени (например, за сутки, месяц, год и т.п.), различают

Таблица 2.1

Число построенных квартир предприятиями и организациями всех форм собственности и их средний размер

соответственно моментные и интервальные ряды динамики . Примером моментного ряда может служить ряд динамики, показывающий число вкладов населения в учреждениях сберегательного банка РФ (на конец года, млн.):

1990 г. 1991 г. 1992 г. 1993 г. 1994 г.

124,9 141,0 203,7 210,9 234,2

Уровни этого ряда - обобщающие итоги статистики вкладов населения по состоянию на определенную дату (конец каждого года). Примером интервального ряда динамики являются данные, приведенные в таблице 2.1.

Из различного характера интервальных и моментных рядов динамики вытекают некоторые особенности уровней соответствующих рядов.

Уровни интервального ряда динамики абсолютных величин характеризуют собой суммарный итог какого-либо явления за определенный отрезок времени. Они зависят от продолжительности этого периода времени и поэтому их можно суммировать , как не содержащие повторного счета.

Отдельные же уровни моментного ряда динамики абсолютных величин содержат элементы повторного счета, так как, например, часть вкладов населения, учтенных в 1990 г., существуют и в настоящее время, являясь единицами совокупности и в 1994 г. Все это делает бессмысленным суммирование уровней моментных рядов динамики.

3) В зависимости от расстояния между уровнями, ряды динамики подразделяются на ряды с равноотстоящими уровнями и неравноотстоящими уровнями во времени . Ряды динамики следующих друг за другом периодов или следующих через определенные промежутки дат называется равноотстоящими (см. пример о числе вкладов в сберегательные банки РФ за 1990-1994 гг.). Если же в рядах даются прерывающиеся периоды или неравномерные промежутки между датами, то ряды называются неравноотстоящими (см. пример в таблице 2.1).

4) В зависимости от наличия основной тенденции изучаемого процесса ряды динамики подразделяются на стационарные и нестационарные.

Если математическое ожидание значения признака и дисперсия (основные характеристики случайного процесса) - постоянны, не зависят от времени, то процесс считается стационарным, и ряды динамики также называются стационарными. Экономические процессы во времени обычно не являются стационарными, т.к. содержат основную тенденцию развития, но их можно преобразовать в стационарные путем исключения тенденций.

2.2. Сопоставимость уровней и смыкание рядов динамики

Важнейшим условием правильного построения ряда динамики являются сопоставимость всех входящих в него уровней; данное условие решается либо в процессе сбора и обработки данных, либо путем их пересчета.

Проблема сопоставимости данных особенно остро стоит в рядах динамики, потому что они могут охватывать значительные периоды времени, за которые могли произойти изменения, приводящие к несопоставимости статистических рядов. Рассмотрим основные причины несопоставимости уровней ряда динамики.

Несопоставимость уровней ряда может возникнуть вследствие изменения единиц измерения и единиц счета. Нельзя сравнивать и анализировать цифры о производстве тканей, если за одни годы оно дано в погонных метрах, а за другие - в квадратных метрах.

На сопоставимость уровней ряда динамики непосредственно влияет методология учета или расчета показателей. Например, если в они годы среднюю урожайность считали с засеянной площади, а в другие - с убранной, то такие уровни ряда динамики будут несопоставимы.

Условием сопоставимости уровней ряда динамики является периодизация динамики. В процессе развития во времени прежде всего происходят количественные изменения явлений, а затем на определенных ступенях совершаются качественные скачки, приводящие к изменению закономерностей явления. Поэтому научный подход к изучению рядов динамики заключаются в том, чтобы ряды, охватывающие большие периоды времени, расчленять на такие, которые бы объединяли лишь однородные с точки зрения качественных признаков периоды развития совокупности, характеризующейся одной закономерностью развития.

Процесс выделения однородных этапов развития рядов динамики носит название периодизации динамики . Вопрос о том, какие этапы развития прошло то или иное явление за определенный исторический отрезок времени, решается теорией той науки, к области которой относится изучаемая совокупность явлений.

Важно также, чтобы в ряду динамики интервалы или моменты, по которым определены уровни, имели одинаковый экономический смысл. Скажем, при изучении роста поголовья скота бессмысленно сравнивать цифры поголовья по состоянию на 1 октября с 1 января, так как первая цифра включает не только скот, оставшийся на зимовку, но и предназначенный к убою, а вторая цифра, включает только скот, оставленный на зимовку.

Уровни ряда динамики могут оказаться несопоставимыми по кругу охватываемых объектов вследствие перехода ряда объектов из одного подчинения в другое. Несопоставимость уровней ряда может возникнуть вследствие изменений территориальных границ областей, районов и так далее. Следовательно, прежде чем анализировать динамический ряд, надо, исходя из цели исследования, убедится в сопоставимости уровней ряда и, если последняя отсутствует, добиться ее дополнительными расчетами.

Таблица 2.2

Динамика объема продукции

Для того, чтобы привести уровни ряда динамики к сопоставимому виду, иногда приходится прибегать к приему, который носит название смыкания рядов динамики. Под смыканием понимают объединение в один ряд (более длинный) двух или нескольких рядов динамики, уровни которых исчислены по разной методологии или в разных территориальных границах. Для осуществления смыкания необходимо, чтобы для одного из периодов (переходного) имелись данные, исчисленные по разной методологии (или в разных границах). Предположим, по одному из промышленных объединений имеются следующие данные о произведенной продукции, методика получения которых в течение рассматриваемого периода претерпела некоторые изменения.

Чтобы проанализировать динамику объема продукции за 1988-1995 гг., необходимо сомкнуть (объединить) приведенные выше два ряда в один. А чтобы уровни нового ряда были сопоставимы, необходимо пересчитать данные 1988-1991 гг. по новой методике. Для этого на основе данных об объеме продукции за 1991 г. в новой и старой методике находим соотношение между ними: 22,8: 21,2=1,1. Умножая на полученный коэффициент данные за 1988-1991 гг. приводим их таким образом в сопоставимый вид с последующими уровнями. Сомкнутый (сопоставимый) ряд динамики показан в предпоследней строке таблицы.

Другой способ смыкания рядов динамики заключается в том, что уровни года, в котором произошли изменения (в нашем примере - уровни 1991 г.), как до изменений, так и после изменений (для нашего примера в старой и новой методике, т.е. 21,2 и 22,8) принимаются за 100%, а остальные пересчитываются в процентах по отношению к этим уровням соответственно (в нашем примере в старых ценах - по отношению к 21,2, в новых ценах - к 22,8). В результате получаем сомкнутый ряд динамики, который показан в последней строке таблицы 2.2.

Та же проблема приведения к сопоставимому виду возникает и при параллельном анализе развития во времени экономических показателей отдельных стран, административных и территориальных районов. Это, во-первых, вопрос о сопоставимости цен сравниваемых стран, во-вторых, вопрос о сопоставимости методики расчета сравниваемых показателей. В таких случаях ряды динамики приводятся к одному основанию, то есть к одному и тому же периоду или моменту времени, уровень которого принимается за базу сравнения, а все остальные уровни выражаются в виде коэффициентов или в процентах по отношению к нему.

Таблица 2.3

Производство цемента в двух условных странах, млн.т.

Год
Страна А 45,5 72,4 95,2 122,0 128,0
Страна Б 56,1 65,1 66,5 65,0 67,0

Например, имеются данные таблицы 2.3. Различные значения абсолютных уровней приведенных рядов динамики затрудняют выявление особенностей производства цемента в странах А и Б. Поэтому приведем абсолютные уровни рядов динамики к общему основанию, приняв за постоянную базу сравнения уровни 1991 г., получим следующие данные (табл. 2.4.):

Таблица 2.4

Темпы роста производства цемента в двух условных странах, в % к 1991г.

Год
Страна А 100,0 159,1 209,2 268,1 281,3
Страна Б 100,0 116,0 118,5 115,9 119,4

В относительных величинах, выраженных в базисных темпах роста по каждой стране, несопоставимость уровней рядов динамики нивелируется. Различный характер развития выступает более наглядно.

2.3. Основные числовые характеристики рядов динамики

Каждый динамический ряд состоит из n изменяющихся во времени значений экономического или иного показателя. В отличие от обычных вариационных рядов уровни рядов динамики местами менять нельзя, их положение фиксировано. Обычно первый член ряда называют начальным уровнем y 0 или y 1 , а последний - конечным уровнем y n .

В качестве обобщенной числовой характеристики уровней ряда, изменяющихся во времени, служит средний уровень ряда , называемый хронологической средней.

Так в интервальном ряду абсолютных величин с равными периодами (интервалами) времени средний уровень рассчитывается как простая средняя арифметическая:

= (y 1 +y 2 + ... +y n)/ n, (2.1)

где n - общее число уровней.

Аналогично рассчитывается средний уровень и в рядах средних величин, рассчитанных на основе интервальных рядов. Расчет среднего уровня для моментного ряда с n равноотстоящими во времени уровнями выполняют по формуле:

= [(y 1 + y n)/2 + y 2 +y 3 + ... +y n-1 ]/ (n-1). (2.2)

В случае неравных интервалов при осреднении каждому уровню ряда y i нужно придать вес, равный отношению соответствующего ему интервала времени t i к общему промежутку времени между конечным и начальным уровнями T = t 1 +t 2 +...+ t n:

= (y 1 ×t 1 + y 2 ×t 2 + ... + y n ×t n)/ T. (2.3)

Каждый уровень ряда отличается от среднего уровня или, иначе, варьирует в соответствии с закономерностями, присущими изучаемому экономическому показателю. Естественно поэтому во временных рядах определять вариацию уровней ряда при помощи таких известных статистических характеристик, как среднее квадратическое отклонение:

s х = (2.4)

или коэффициент вариации:

V х = (s х / )×100%. (2.5)

Коэффициент вариации V х можно использовать как относительный показатель, главным образом, для сопоставления колеблемости в нескольких рядах динамики, существенно различающимися масштабами средних величин своих уровней.

Наряду с этими обобщающими показателями, при изучении рядов динамики важно следить за направлением и размером изменений уровней во времени. С этой целью для временных рядов рассчитывают такие показатели, детализирующие процесс развития основной тенденции, как 1) темпы роста , 2) абсолютные приросты и 3) темпы прироста .

Темпы роста (Тр) - относительный показатель, являющийся результатом деления двух уровней одного ряда. В зависимости от выбора делителя y БАЗ, называемого базой сравнения, темпы роста могут рассчитываться как цепные , если каждый уровень соотносится с уровнем предыдущего периода:

Тр i = y i / y i-1 . (2.6)

Когда все уровни ряда соотносятся с уровнем одного какого-то периода, принятого за базу сравнения, то темпы роста рассчитываются как базисные . Если базой служит начальный уровень, то

Тр i = y i / y 0 , (2.7)

но следует отметить, что базой сравнения может быть и любой другой уровень ряда динамики.

Цепные темпы роста характеризуют интенсивность развития изучаемого явления в каждом отдельном периоде, базисные - за любой промежуток времени между расчетным и базисным уровнями.

Как любые относительные величины, темпы роста могут выражаться в виде коэффициентов, простого отношения предыдущего уровня к последующему, если база сравнения принята за единицу, и в процентах, если база сравнения принята за 100%.

Между цепными и базисными темпами роста существует непосредственная связь, позволяющая, при необходимости, переходить от одних показателей к другим, и наоборот:

а) произведение последовательности n цепных темпов роста равно базисному темпу роста последнего уровня: Тр n = y n / y 0 ;

б) результат деления двух соседних базисных темпов роста равен цепному (промежуточному) темпу роста.

В дополнение к темпам роста при анализе динамики экономических показателей рассчитываются абсолютные приросты и темпы прироста.

Абсолютный прирост (Dy) рассчитывают как разность между двумя уровнями ряда. Он показывает в единицах измерения уровней ряда на сколько единиц уровень одного периода с номером i больше или меньше уровня предшествующего периода и, следовательно, имеет знак плюс или минус.

Для относительной оценки значений абсолютных приростов рассчитываются показатели темпов прироста.

Темп прироста (Тпр) - это относительный показатель, показывающий на сколько процентов один уровень с номером i больше (или меньше) другого, принимаемого за базу сравнения. Этот показатель можно рассчитать как процентное отношение абсолютного прироста к тому же базисному уровню, по сравнению с которым абсолютный прирост рассчитан:

Тпр i = (Dy i / y БАЗ)×100%. (2.9)

Другой способ определения темпа прироста связан с использованием величины не абсолютного прироста, а темпов роста из следующих соображений:

Тпр i = (y i -y i-1)/ y i-1 = y i / y i-1 -1 = Тр i -1. (2.10)

Если темп роста рассчитан в процентах, то темп прироста получают вычитанием из темпа роста ста процентов.

Аналогично темпам роста темпы прироста могут рассчитываться как цепные при y БАЗ = у i-1 или как базисные при y БАЗ = y 0 .

Абсолютное значение 1% прироста (a) - это результат деления абсолютного прироста на темп прироста в процентах за

отдельный период с номером i:

a i = Dy i / Тпр i . (2.11)

Абсолютное значение 1% прироста численно равняется одной сотой предыдущего уровня ряда:

a i = Dy i / Тпр i = Dy i / Тпр i = Dy i /((Dy i / y i-1)100%) = y i-1 /100%.

Нетрудно видеть, что для базисных приростов и темпов прироста расчет этого показателя не имеет смысла.

Показатели прироста D y и Тпр рассчитывают для каждого уровня ряда, начиная со второго, и они образуют новые, производные ряды динамики. Поэтому для них, в свою очередь, рассчитывают обобщающие показатели в виде средних величин:

- средний годовой абсолютный прирост () - это средняя арифметическая простая цепных абсолютных приростов:

= (Dy 1 +Dy 2 + ... + Dy n)/ n. (2.12)

Другой способ определения можно получить на основе накопленного абсолютного прироста за n лет:

= (y n - y 1)/ (n -1), (2.13)

где (n -1) - длина периода, для которого рассчитывается средний абсолютный прирост.

- средний темп роста () - это средняя геометрическая индивидуальных цепных темпов роста, которые рассчитаны по отношению к предыдущему периоду:

. (2.14)

Другой способ осреднения связан со свойствами цепных темпов

роста, для которых имеет место соотношение:

Тр 1 ×Тр 2 ××× Тр n = (y 1 /y 0)×(y 2 /y 1) ×××(y n-1 /y n-2)×(y n /y n-1) = y n /y 0 .

Если заменить все индивидуальные темпы роста на одну общую

среднюю величину , то окажется, что = y n /y 0 . Следовательно

Первый способ осреднения является более трудоемким для расчета и используется обычно в тех случаях, когда уже рассчитаны индивидуальные темпы роста. В тех случаях, когда имеются данные только об общем росте за расчетный период, то удобнее использовать второй способ.

Поскольку относительную величину y n /y 0 = Тр 1 ×Тр 2 ××× Тр n

можно рассматривать как базисный темп роста, рассчитанный по отношению к начальному периоду, то формула (15) применима не только для уровней ряда, но для темпов роста этих уровней, рассчитанных по отношению к одной и той же базе. Величина при этом зависит только от граничных значений уровней ряда. Поэтому, прежде чем рассматривать средний темп роста для изучаемого экономического явления за какой-либо период, нужно тщательно проанализировать его с точки зрения возможности замены им индивидуальных темпов роста. При наличии длительных и неодинаковых по характеру изменения периодов времени ряд динамики следует разбить на такие части, чтобы расчет отражал эти тенденции.

- средний темп прироста ( пр) рассчитывают на основе осреднения индивидуальных темпов прироста:

Пр = (Тпр 1 + Тпр 2 + ...+ Тпр n)/ n. (2.16)

Аналогично определению индивидуальных темпов прироста с использованием величины темпов роста, таким же образом можно связать и их осредненные величины:

Пр = - 1. (2.17)

Если средний темп роста рассчитан в процентах, то средний темп прироста также получают вычитанием из среднего темпа роста ста процентов.

В таблице 2.5 приведен пример конкретного расчета числовых характеристик ряда динамики, отражающего объемы добычи нефти за 1975 - 80 г.г.

Таблица 2.5

Показатели
Добыча нефти (включая газовый кондесат), млн.т 490,8 519,7 545,8 571,5 586,0 603,2
Темпы роста базисные:
коэффициенты 1,0 1,059 1,112 1,164 1,194 1,230
проценты 100,0 105,9 111,2 116,4 119,4 123,0
Темпы роста цепные:
коэффициенты - 1,059 1,050 1,047 1,025 1,029
проценты - 105,9 105,0 104,7 102,5 102,9
Абсолютные приросты:
по годам - 28,9 26,1 25,7 14,5 17,2
млн.т к 1975 г - 28,9 55,0 80,7 95,2 112,4
Темпы прироста:
% по годам - 5,9 5,0 4,7 2,5 2,9
к 1975 г. - 5,9 11,2 16,4 19,4 33,0
Абсолютное значение 1%
прироста, млн. т - 4,9 5,2 5,5 5,7 5,9

22,48; = 1,042; пр = 4,2.

2.4 Методы анализа основной тенденции (тренда) в рядах

динамики

Важной задачей статистики при анализе рядов динамики является определение основной тенденции развития, присущей тому или иному ряду динамики. Например, за колебаниями урожайности какой-либо сельскохозяйственной культуры в отдельные годы тенденция роста (уменьшения) урожайности может не просматриваться непосредственно, и поэтому должна быть выявлена статистическими методами.

Методы анализа основной тенденции в рядах динамики разделяются на две основные группы:

1) сглаживание или механическое выравнивание отдельных членов ряда динамики с использованием фактических значений соседних уровней;

2) выравнивание с применением кривой, проведенной между конкретными уровнями таким образом, чтобы она отображала тенденцию, присущую ряду и одновременно освободила его от незначительных колебаний.

Рассмотрим методы каждой группы.

Метод укрупнения интервалов. Если рассматривать уровни экономических показателей за короткие промежутки времени, то в силу влияния различных факторов, действующих в разных направлениях, в рядах динамики наблюдается снижение и повышение этих уровней. Это мешает видеть основную тенденцию развития изучаемого явления. В этом случае для наглядного представления тренда применяется метод укрупнения интервалов, который основан на укрупнении периодов времени, к которым относятся уровни ряда. Например, ряд ежесуточного выпуска продукции заменяется рядом месячного выпуска продукции и т.д.

Метод простой скользящей средней . Сглаживание ряда динамики с помощью скользящей средней заключается в том, что вычисляется средний уровень из определенного числа первых по порядку уровней ряда, затем средний уровень из такого же числа уровней, начиная со второго, далее - начиная с третьего и т.д. Таким образом, при расчетах среднего уровня как бы ²скользят² по ряду динамики от его начала к концу, каждый раз отбрасывая один и уровень вначале и добавляя один следующий. Отсюда название - скользящая средняя.

Каждое звено скользящей средней - это средней уровень за соответствующий период, который относится к середине выбранного периода, если число уровней ряда динамики нечетное. Нахождение скользящей средней по четному числу членов рядов динамики несколько сложнее, так как средняя может быть отнесена только к середине между двумя датами, находящимися в середине интервала сглаживания. Например, средняя, найденная для четырех членов, относится к середине между вторым и третьим, третьим и четвертым уровнями и так далее. Чтобы ликвидировать такой сдвиг, применяют так называемый способ центрирования. Центрирование заключается в нахождении средней из двух смежных скользящих средних для отнесения полученного уровня к определенной дате. При центрировании необходимо находить скользящие суммы, скользящие средние нецентрированные по этим суммам и средние из двух смежных нецентрированных скользящих средних.

Рассмотрим расчет 5-летней и 4-летней скользящей средней на примере данных таб. 2.6:

Таблица 2.6

Сглаживание урожайности зерновых культур в хозяйстве за 1980-1995 гг. методом скользящей средней

Годы Цент- неров с га Сколь-зящие пяти летние суммы Пяти-летние сколь- зящие сред-ние Сколь-зящие четырех-летние суммы Четырех-летние скользящие средние (нецент-рированные) Четырех-летние скользящие средние (центриро-ванные)
А
9,5 - - - - -
13,7 - - - - -
12,3
12,1 - 12,5 - 12,8
13,2
14,0 - 13,7 49,3 13,5
13,7
13,2 63,5 14,1 53,0 14,1
14,6
15,6 68,6 14,4 54,9 14,6
14,6
15,4 70,3 15,2 58,2 15,1
15,7
14,0 72,2 15,6 58,2 15,6
15,6
17,6 75,8 14,7 62,6 15,0
14,5
15,4 78,0 15,1 62,4 14,9
15,3
10,9 73,5 15,3 57,9 15,0
14,7
17,5 75,4 15,5 61,4 15,1
15,5
15,0 76,4 15,2 58,8 15,8
16,3
18,5 77,3 16,0 61,9 15,97
15,65
14,2 76,1 - 65,2 -
14,9 80,1 - 62,6 -

Недостаток метода простой скользящей средней состоит в том, что сглаженный ряд динамики сокращается ввиду невозможности получить сглаженные уровни для начала и конца ряда. Этот недостаток устраняется применением метода аналитического выравнивания для анализа основной тенденции.

Аналитическое выравнивание предполагает представление уровней данного ряда динамики в виде заданной функции времени = f (t ) с неизвестными коэффициентами (параметрами). Для отображения основной тенденции развития явлений во времени применяются различные функции: полиномы, степени, экспоненты, логистические кривые и другие виды.

2.5. Методы выделения сезонной компоненты

При рассмотрении квартальных или месячных данных многих социально-экономических явлений часто обнаруживаются определенные, постоянно повторяющиеся колебания, которые существенно не изменяются за длительный период времени. Они являются результатом влияния природно-климатических условий, общих экономических факторов, а также ряда многочисленных разнообразных факторов, которые частично являются регулируемыми. В статистике периодические колебания, которые имеют определенный и постоянный период, равный годовому промежутку, носят название "сезонных колебаний" или "сезонных волн".

Если эти колебания повторяются в течение небольшого промежутка времени, то они называются сезонной вариацией. Колебания, повторяющиеся в течение более длительного промежутка времени, называются циклической вариацией . Этот фактор можно выделить только по данным за длительные промежутки времени порядка десятков лет, которые здесь не рассматриваются.

Сезонные колебания характеризуются специальным показателями, которые называются индексами сезонности (I S ). Совокупность этих показателей отражает сезонную волну. Индексами сезонности являются процентные отношения фактических внутригодовых уровней к постоянной или переменной средней.

Для выявления сезонных колебаний обычно берут данные за несколько лет, распределенные по месяцам. Данные за несколько лет (обычно не менее трех) берутся для того, чтобы выявить устойчивую сезонную волну, на которой не отражались бы случайные условия одного года.

Если ряд динамики не содержит ярко выраженной тенденции в развитии, то индексы сезонности вычисляются непосредственно по эмпирическим данным без их предварительного выравнивания. Для каждого месяца рассчитывается средняя величина уровня, например, за три года , затем из них рассчитывается среднемесячный уровень для всего ряда и в заключение определяется процентное отношение средних для каждого месяца к общему среднемесячному уровню ряда, то есть:

I S = ( : )100% (2.18)

Если же ряд динамики содержит определенную тенденцию в развитии, то прежде чем вычислить сезонную волну, фактические данные должны быть обработаны так, чтобы была выявлена общая тенденция. Обычно для этого прибегают к аналитическому выравниванию ряда динамики.

При использовании способа аналитического выравнивания ход вычислений индексов сезонности следующий:

По соответствующей функции времени вычисляются для каждого месяца (квартала) выровненные уровни ;

Вычисляются отношения фактических месячных (квартальных) данных Y i к соответствующим выровненным данным в процентах

I = (Y i: ) 100;

Находятся средние арифметические из процентных соотношений, рассчитанных по одноименным периодам в процентах I i = (I 1 +I 2 +I 3 +...+I n):n, где n - число одноименных периодов.

В общем виде формулу расчета индекса сезонности данным способом можно записать так:

I S = . (2.19)

Расчет заканчивается проверкой правильности вычислений индексов, так как средний индекс сезонности для всех месяцев (кварталов) должен быть 100 процентов, то сумма полученных индексов по месячным данным равна 1200, а сумма по четырем кварталам - 400.

Пример. Представленные ниже данные - это количество продукции, проданной магазином в течение последних 13 кварталов. Необходимо проанализировать указанное множество данных и установить, можно ли обнаружить тенденцию. Если устойчивая тенденция действительно существует, данная модель будет использоваться нами для прогнозирования количества проданной продукции в следующие кварталы.

Решение. На рисунке нанесены соответствующие значения. При построении диаграммы временного ряда полезно последовательно соединить точки отрезками, чтобы более четко увидеть любую тенденцию.

Таблица 2.7

Количество продукции, проданной в течение последних

13 кварталов

Как следует из диаграммы, возможен возрастающий тренд, содержащий сезонные колебания. Объемы продаж в зимний период (1 и 4) значительно выше, чем в летний (2 и 3). Сезонная компонента практически не изменится в течение трех лет. Тренд показывает, что а целом объем продаж возрос примерно с 230 тыс. шт. в 1996 г. до 390 тыс. шт. в 1998 г., однако увеличения сезонных колебаний не произошло. Этот факт свидетельствует в пользу модели с аддитивной компонентой.

АНАЛИЗ МОДЕЛИ С АДДИТИВНОЙ КОМПОНЕНТОЙ: Y=Т+S+Е