Главная

Простейшие методы прогнозирования налоговых доходов

Если визуальный анализ временного ряда обнаруживает явное наличие временного тренда или если прогноз строится на очень короткий период (на один месяц вперед), то можно ограничиться простейшими методами прогнозирования - сделать экстраполяцию по модели временного тренда. Под временным трендом в статистике понимается достаточно стабильная возрастающая или уменьшающаяся тенденция в динамике анализируемого показателя. Временной тренд может быть линейным, т.е. в виде прямой линии, или нелинейным, в виде выпуклой или вогнутой кривой. Чтобы установить, содержит ли некоторая переменная временной тренд, необходимо прежде всего построить график этой переменной и попытаться определить наличие тренда и его характер визуально. Если прослеживается линейный тренд, необходимо подобрать подходящую прямую линию. Уравнение этой прямой и будет моделью временного тренда.

Чаще всего для моделирования временного тренда в целях прогнозирования используют двухфакторную регрессию. Обозначим временной ряд значений переменной, прогноз которой нам необходимо построить, за у, а элементы этого ряда - за yt, где t - период времени, к которому относится соответствующее наблюдение. Линейная модель временного тренда имеет вид:

у = α + β х Т + err

где Т- переменная времени;
α - свободный член уравнения;
β- тангенс угла наклона прямой линии к оси времени;
err - случайная составляющая модели.

Подбор подходящей прямой осуществляется методом наименьших квадратов - так называется статистическая процедура расчета значений коэффициентов (свободного члена и коэффициента наклона) уравнения, отражающего зависимость моделируемой переменной от времени, по координатам имеющихся точек наблюдения. Расчет оценок по методу наименьших квадратов находит широкое применение, поскольку оценки, полученные этим методом, при определенных условиях обладают хорошими статистическими свойствами. Метод наименьших квадратов позволяет найти пару таких значений α и β при которых сумма квадратов вертикальных расстояний между точками наблюдений и аппроксимирующей их прямой будет минимальна.

Визуальный анализ динамики индекса потребительских цен Ипц показывает, что этот показатель рос на протяжении всего периода, за который у нас имеются данные, хотя рост этот не всегда был гладким.

Зависимость Ипц от времени

Месяц / год

1994

1995

1996

1997

январь

16,19

50,90

104,10

124,60

февраль

17,94

56,52

107,00

126,40

март

19,26

61,53

110,00

128,20

апрель

20,90

66,76

112,40

129,50

май

22,34

72,03

114,20

130,60

июнь

23,68

76,87

115,50

 

июль

24,94

81,02

116,30

 

август

26,09

84,75

116,10

 

сентябрь

28,10

88,56

116,50

 

октябрь

32,34

92,73

117,90

 

ноябрь

37,12

96,90

120,10

 

декабрь

43,21

100,00

121.80

 

Математическое уравнение, отражающее зависимость Ипц от линейного временного тренда, может быть записано в следующем виде:

Ипц = α + β х Т + err

Переменную, стоящую в левой части уравнения (в данном случае это Ипц), принято называть моделируемой или зависимой, а переменные в правой части - объясняющими или независимьши. Свободный член уравнения и коэффициенты при объясняющих переменных называются параметрами уравнения или коэффициентами регрессии.

Заметим, что переменная времени Т - это просто счетчик, принимающий значения 1, 2, 3, ..., 41. Последнее значение этой переменной равно 41, поскольку у нас есть месячные данные по индексу потребительских цен с января 1994 г. по май 1997 г., всего 41 точка. Стоящий в конце уравнения член «еrr» - это случайные колебания индекса потребительских цен, которые не удается объяснить влиянием временного тренда. Оценить значения коэффициентов этой модели методом наименьших квадратов можно с помощью стандартного статистического пакета. В таблице приводятся результаты такой оценки.

Линейная зависимость Ипц от времени

Из таблицы видно, что коэффициент при переменной времени, полученный методом наименьших квадратов, оказался равным 3,285. Это означает, что на протяжении рассматриваемого периода индекс потребительских цен в среднем увеличивался на чуть более 3 процентов в месяц. Свободный член регрессионного уравнения получился равным 10,34.

В следующем после коэффициентов столбце указаны значения стандартных ошибок оценок соответствующих коэффициентов. По величине стандартных ошибок судят о точности оценок. Чем меньше стандартная ошибка по сравнению с расчетным значением коэффициента, тем точнее оценен коэффициент. Стандартная ошибка при переменной времени составляет 0,108; по сравнению с самим значением коэффициента (3,285) это немного. Таким образом, полученная оценка достаточно точно отражает месячный темп прироста показателя Ипц.

Следующий столбец имеет заголовок t-статистика - статистический показатель, используемый для проверки гипотезы о том, что истинное значение коэффициента при переменной времени Т равно 0. Иначе говоря, проверяется гипотеза о том, что переменная Ипц не содержит линейного временного тренда. Большие значения /-статистики говорят о том, что нулевую гипотезу об отсутствии зависимости следует отвергнуть. Вообще говоря, любое значение t-статистики, по абсолютной величине превышающее 2,0, указывает на наличие ненулевого воздействия объясняющей переменной на моделируемую.

В последнем столбце указывается вероятность того, что при данном значении t-статистики истинное значение коэффициента равно нулю. Для обоих коэффициентов вероятность такого события равна нулю, следовательно, результаты статистического анализа подтверждают наличие у индекса потребительских лен временного тренда.

В нижней части таблицы, под оценками коэффициентов и стандартных ошибок, приводится еще ряд статистических показателей. Первый из них R2, или коэффициент детерминации. Эта статистическая характеристика показывает степень соответствия между данными наблюдения и расчетными данными, полученными из модели. Статистика R2 отражает долю дисперсии зависимой переменной (в данном случае Ипц), которую удалось объяснить влиянием объясняющих переменных (в данном случае - это свободный член и переменная времени Т). Значение R2 = 0,959 говорит о том, что почти 96% динамики индекса потребительских цен на период с января 1994 г. по май 1997 г. объяснялось влиянием линейного временного тренда.

Статистика R2 определена и имеет содержательный смысл только для регрессий, оцененных методом наименьших квадратов и имеющих свободный член. Для таких регрессий эта статистика может принимать значения от 0 до 1: если R2 = 0. никакую долю динамики зависимой переменной объяснить не удалось, если R2 = 1, динамику зависимой переменной удалось объяснить полностью.

Другим показателем тесноты соответствия между моделью и исходными данными является статистика R2 с поправкой на число степеней свободы. Она используется для сравнения моделей множественных регрессий (т.е. регрессий, включающих несколько объясняющих переменных) и выбора из них наилучшей (ниже мы будем говорить об этом подробнее).

Следующий показатель - стандартная, или среднеквадратическая ошибка регрессии. Величина этой ошибки также характеризует степень соответствия между моделью и данными наблюдений. Среднеквадратическая ошибка регрессии рассчитывается как корень квадратный из суммы разностей между расчетными значениями и значениями наблюдений и представляет собой дисперсию случайного остатка (возмущения) в уравнении регрессии. Общее правило таково: если значение стандартной ошибки регрессии мало по сравнению с масштабом зависимой переменной, можно сделать вывод о том, что модель дает достаточно точные результаты.

Расчетные и фактические значения моделируемой переменной полезно сравнить на графике. Большинство статистических пакетов позволяет строить подобные графики автоматически. Чем ближе расположены расчетные значения к фактическим, тем лучше работает модель. Обязательно проверяйте, нет ли каких-либо систематических закономерностей в расхождениях между расчетными и фактическими данными: учет причин подобных отклонений в модели поможет улучшить ее прогнозные свойства. Обращайте внимание на то, не увеличиваются ли эти расхождения к концу рассматриваемого временного интервала. Если к концу периода наблюдений ошибки нарастают, модель может оказаться непригодной для прогнозирования. На рисунке приводятся фактические и расчетные значения индекса потребительских цен (Ипц ).

График фактических и расчетных значений индекса потребительских цен

Ошибки прогноза представляют собой разность между фактическими и расчетными значениями моделируемой (зависимой) переменной. В том периоде, за который у нас есть данные по индексу потребительских цен, мы можем сравнить фактические значения зависимой переменной с теми значениями, которые рассчитаны по модели линейного временного тренда. Обозначим временной ряд расчетных значений Ипцр. Ошибка прогноза или остаток равны Ипц - Ипцр . Остатки могут быть как положительными, так и отрицательными, поскольку модель может ошибаться и в ту, и в другую сторону.

Пример. В июне 1994 г. фактическое значение индекса потребительских цен (Ипц) было равно 23,68. Расчетное значение индекса (Ипцр) за этот месяц составило 30,05, т.е. ошибка прогноза получилась равной -6,36. С учетом величины самого индекса это достаточно большая ошибка. В августе 1996 г. фактическое значение индекса Ипц было 116,1, а расчетное значение за тот же месяц получилось равным 115,5, т.е. ошибка прогноза получилась небольшой - всего 0,6.

Значения остатков колеблются вокруг нуля. Если остаток равен нулю, значит, расчетное значение совпало с фактическим. В расчетных и прогнозных значениях всегда присутствует элемент неопределенности. В регрессионных моделях имеются как минимум два источника неопределенности. Во-первых, в модель физически невозможно включить все факторы, от которых может зависеть моделируемая переменная. Этот тип неопределенности представлен в нашей модели в виде слагаемого err (от англ. error -ошибка), стоящего в конце уравнения регрессии. Ошибки, связанные с этой неопределенностью, называют обычно «случайными возмущениями», «шумом» или «инновационными толчками». Об относительной величине этих возмущений можно судить по показателю среднеквадратической ошибки регрессии, о котором мы говорили выше. Второй источник неопределенности связан с тем, что вместо истинных значений коэффициентов мы вынуждены использовать их оценки, рассчитанные по имеющимся данным. Так, в модели линейного временного тренда мы рассчитали значения свободного члена и коэффициента при переменной времени методом наименьших квадратов. Для всех рассчитанных оценок коэффициентов программа выдала стандартные ошибки, которые являются показателем точности этих оценок.

В результате совместного влияния этих двух источников неопределенности любые расчеты по модели оказываются неточными. Мерой неточности является стандартная ошибка регрессии. Для прогнозирования одной и той же переменной можно построить несколько моделей, и у прогнозов, полученных с помощью разных моделей, почти наверняка уровень точности будет разным. Логично предположить, что чем меньше модель «ошибается» на том периоде, за который у нас есть данные наблюдения, тем точнее будет ее прогноз на тот период, за который у нас данных наблюдений нет, т.е. прогноз на будущее. Существует целый рад критериев, позволяющих оценивать прогнозные свойства моделей, и все они строятся на сравнении расчетных и фактических значений.

Остаток регрессии или ошибка прогноза определяется как разность между фактическим и расчетным значением моделируемого показателя. Любые расчетные значения моделируемого показателя называют также значениями, «предсказанными» моделью, хотя это «предсказание» может относиться не к будущему времени, а к тому периоду, за который у нас имеются фактические данные. Чем меньше ошибки прогноза, тем лучше работает модель, тем точнее она прогнозирует.

Корень квадратный из среднеквадратической ошибки рассчитывается так: для каждой точки рассчитывается ошибка прогноза как разность между фактическим и расчетным значением, затем эта разность возводится в квадрат, квадраты разностей суммируются по всем точкам наблюдений, сумма делится на количество точек наблюдений, и из результата деления извлекается квадратный корень.

Средняя абсолютная ошибка равна сумме ошибок прогноза, взятых по абсолютной величине, деленной на количество точек наблюдения.

Средняя абсолютная процентная ошибка рассчитывается так же, как и предыдущий показатель, за тем исключением, что абсолютные значения ошибок сначала делятся на фактические значения моделируемой переменной, чтобы получить значение ошибки в процентном выражении, а затем складываются и делятся на количество точек наблюдения. Данный показатель не имеет единицы измерения, поскольку при делении ошибки прогноза на фактическое значение переменной единицы измерения сокращаются.

Чем меньше эти показатели, тем точнее прогнозирует модель. С помощью этих и других подобных критериев можно сравнивать разные модели одной и той же переменной и выбирать из них лучшие. Предположим, например, что у нас есть три разные модели одной и той же переменной. Как узнать, от которой из этих трех моделей можно ожидать самого точного прогноза? Для этого нужно оценить коэффициенты всех трех моделей на одном и том же периоде наблюдений, рассчитать значения моделируемой переменной на этом периоде по всем трем моделям и сравнить точность этих «предсказаний» с фактическими данными, пользуясь, например, показателем стандартной ошибки регрессии. Разумно предположить, что модель, стандартная ошибка которой окажется самой низкой, будет давать и самые точные прогнозы на будущее.

Выбрав подходящую модель, можно начинать прогнозировать будущие значения интересующей нас переменной. Если речь идет о простейшей модели временного тренда, то для расчета прогноза достаточно продлить переменную времени Т на столько точек, сколько их укладывается в выбранный интервал прогнозирования. Если, например, мы хотим построить прогноз индекса потребительских цен Ипц на три месяца вперед, то последним значением переменной времени в том виде, в каком мы ее использовали на этапе оценки модели, будет 44.

Следует иметь в виду, что при прогнозировании вне периода наблюдений, т.е. на будущее, мы не можем оценить точность полученного прогноза с помощью тех показателей, о которых речь шла выше. Они применимы лишь к прогнозам на тот период, за который у нас имеются фактические данные.

Rambler's Top100

Copyright © 2010