Главная

Пример практического применения статистической модели

Рассмотрим, каким образом строится и применяется статистическая модель выбора налогоплательщиков. В этом примере мы скомбинировали искусственно сгенерированные данные об уходе от налогов со стандартными отчетными данными, взятыми из деклараций по налогу на прибыль предприятий, из балансовых отчетов, из отчетов о финансовых результатах. Предположим, что информация по этим показателям представляет собой выборочную информацию из базы данных территориальной налоговой инспекции. Хотя наш пример касается налога на прибыль предприятий, та же методология может применяться и для многих других налогов.

При выборе налогоплательщиков желательно применять совместно две модели: модель бинарного отклика и регрессионную модель. Тогда бинарная модель покажет вероятность того, что проверка данного плательщика даст дополнительные налоговые начисления, а регрессионная модель покажет ожидаемую величину этих начислений. В нашем примере мы решили для бинарной модели использовать спецификацию логит. Оценка моделей такой спецификации проводится методом максимального правдоподобия. Форма регрессионной модели для данного примера выбрана логлинейной. Иными словами, предполагается, что натуральный логарифм дополнительных налоговых начислений есть линейная функция от объясняющих переменных. Мы будем предполагать, что случайное возмущение регрессионной модели распределено нормально со средней, равной нулю и постоянной дисперсией. Такая спецификация подразумевает, что величина дополнительных начислений при данных значениях объясняющих переменных распределена логнормально. Подобная спецификация кажется нам подходящей, поскольку практика показывает, что распределение дополнительных налоговых начислений обычно отличается высокой скошенностью, т.е. небольшие дополнительные начисления получают многие налогоплательщики из числа проверенных. При этом некоторое небольшое число налогоплательщиков получает чрезвычайно высокие дополнительные начисления. Именно так ведет себя логнормальное распределение.

На первом шаге необходимо построить списки переменных -кандидатов на включение в модель для той и другой модели. Для нашего примера мы решили для обеих моделей использовать один и тот же начальный список переменных:

Х1 - количество лет, в течение которых данное предприятие числится плательщиком у данной налоговой инспекции;

Х2 - фиктивная переменная, равная I, если указанная в декларации валовая прибыль предприятия равна нулю, и 0 в противном случае;

Х3 - фиктивная переменная, равная 1, если в отчетности указана отрицательная валовая прибыль (предприятие несет убытки), и 0 в противном случае;

Х4 - фиктивная переменная, равная 1, если указанная в отчетности величина валовых поступлений от реализации равна 0, и 0 в противном случае;

Х5 - фиктивная переменная, равная 1, если указанная в отчетности величина внереализационных поступлений равна 0, и 0 в противном случае.

Переменную Х1 мы включили в список, чтобы учесть возможность существования у новых и старых предприятий разных моделей поведения как налогоплательщиков. Переменные от Х2 до Х5 мы включили потому, что при анализе данных нам показалось интересным то обстоятельство, что многие предприятия указывают нулевую (38%) или отрицательную (8%) прибыль или сообщают, что не имеют поступлений от реализации (23%) или что у них нет внереализационных доходов (56%). Предлагая включить эти переменные в модель, мы пытаемся учесть возможность того, что поведение таких предприятий как налогоплательщиков отличается от поведения предприятий, указывающих в своей отчетности ненулевые суммы прибылей и доходов.

Остальные семь переменных в списке отражают результаты сравнения отчетности предприятий внутри групп предприятий, имеющих одинаковые двухзначные коды отраслевой принадлежности по основному виду деятельности (код ОКОНХ). Все эти переменные являются фиктивными (бинарными переменными), которые принимают значение, равное единице, если сведения, указанные предприятием в своей отчетности, сильно отличаются от сведений, поданных остальными предприятиями той же категории. Переменные эти таковы:

Х6 - фиктивная переменная, равная единице, если отношение валовых поступлений от реализации к себестоимости реализованных товаров оказывается в пределах первого квартиля (ниже 25-го процентиля) среди предприятий данной категории, и 0 в противном случае;

Х7 - фиктивная переменная, равная 1, если отношение доходов к расходам по внереализационным операциям ниже 65-го процентиля среди всех предприятий этой категории, и 0 в противном случае;

Х8 фиктивная переменная, равная 1, если отношение вычетов из валовой прибыли к сумме валовой прибыли превышает 90-й процентиль по промышленной группе, и 0 в противном случае;

Х9 - фиктивная переменная, равная 1, если отношение величины налогооблагаемой прибыли к валовой прибыли оказывается ниже медианного значения среди предприятий этой категории, и 0 в противном случае;

Х10 фиктивная переменная, равная 1, если отношение дохода от реализации к активам ниже 20-го процентиля по промышленной группе, и 0 в противном случае;

Х11 - фиктивная переменная, равная 1, если отношение валовой прибыли к доходам от реализации оказалось ниже 20-го процентиля по промышленной группе, и 0 в противном случае;

Х12 - фиктивная переменная, равная 1, если отношение валовой прибыли к текущим активам и основным фондам оказывается ниже медианного по промышленной группе, и 0 в противном случае;

Х13 - фиктивная переменная, равная 1, если отношение нематериальных активов к совокупным балансовым активам превышает 90-й процентиль по промышленной группе , и 0 в противном случае.

Каждая их этих фиктивных переменных автоматически приравнивается нулю, если в числителе отношения стоит нуль. Процентильные сечения были выбраны таким образом, чтобы единичные значения фиктивных переменных присваивались небольшому числу предприятий. Отношения, с помощью которых создавались эти фиктивные переменные, выбирались таким образом, чтобы отразить различные аспекты деятельности предприятия, отображенной в его отчетности. Когда какие-то характеристики этой деятельности, которые мы попытались уловить с помощью указанных отношений, выходят за пределы нормы для данной категории предприятий, соответствующая фиктивная переменная принимает значение 1.

Поскольку мы не располагали данными о том, какие начисления были на самом деле произведены по результатам проверок, в целях иллюстрации мы решили построить такие данные искусственным образом. Чтобы сгенерировать такие данные, нам необходимо было задать значения коэффициентов модели логит и регрессионной модели. Мы выбрали такие значения, которые более или менее согласуются с реально наблюдаемыми в условиях таких стран, как Канада и США. Чтобы придать выполняемому ниже упражнению по выбору спецификации модели более осмысленный характер, для генерирования результатов аудита мы использовали неполные спецификации обеих моделей. Для модели логит в истинную спецификацию были включены только переменные Х2, Х3, Х4, X5, Х6, и Х10, а для регрессионной модели были использованы переменные X1, X2, Х3, X4, Х6, Х9 и X13 .

Дисперсию случайного возмущения в регрессионной модели мы взяли достаточно большой, чтобы отразить ту объективно существующую закономерность, что значительную долю вариации доначислений никогда не удается объяснить на основе имеющихся данных. Затем с помощью генератора случайных чисел мы построили ряд искусственных сумм, якобы дополнительно начисленных по результатам проверки, так, чтобы они согласовались как с предположениями обеих моделей, так и с конкретными значениями коэффициентов этих моделей, которые были нами выбраны. Средняя величина дополнительного начисления (напоминаем, речь идет только о налоге на прибыль) на одну проверку получилась равной 7,3 млн руб., тогда как средняя величина самоначислений (т.е. начислений, которые сами предприятия указали в своих расчетах) по налогу на прибыль составляла 50 млн руб., так что одно с другим согласуется достаточно хорошо. При этом положительную величину начислений присвоили только 52% предприятий, иными словами, 48% общего числа предприятий считались законопослушными налогоплательщиками. Если брать только предприятия-нарушители, то средний размер начислений среди них составил 14,1 млн руб. Медианное значение начислений по этим предприятиям - 460 тыс. руб. - существенно ниже среднего значения, что говорит о большой несимметричности распределения дополнительных начислений.

Как это принято, в каждую из двух моделей был также включен свободный член.

Коэффициент детерминации R-квадрат у регрессионной модели, которую мы использовали в имитационных прогонах, был равен 10 %. Таким образом, модель способна объяснить только 10 % совокупной вариации дополнительных начислений . Если бы указали меньшую дисперсию для случайного возмущения в уравнении регрессии, R-квадрат получился бы более высоким.

Чтобы проиллюстрировать эффективность методологии выбора предприятий, мы сгенерировали данные по уходу от налогов (как нулевые, так и ненулевые в указанной выше пропорции 52:48) для всех 5 тыс. 124 предприятий, которые были представлены в выборке. Тем не менее, чтобы сделать задачу более реалистичной, мы предположили, что результаты начислений известны по проведенным проверкам только для 525 предприятий. Таким образом, модель выбора предприятий для проведения проверок строилась только по данным о 525 предприятиях, на которых якобы были в прошлом проведены проверки. Эти предприятия были выбраны из генеральной совокупности случайным образом.

Для построения спецификации модели логит и регрессионной модели мы использовали все три процедуры выбора объясняющих переменных - прямой отбор, обратный отбор и пошаговый отбор. Таким образом, было получено по три варианта спецификаций каждой модели. Процедуры по выбору спецификаций для модели логит применялись ко всей подвыборке из 525 наблюдений. Интересно отметить, что все три процедуры дали одинаковый результат, т.е. были выбраны одни и те же объясняющие переменные: Х2, Х3, Х4, Х7, X8 и Х9. За единственным исключением, это те самые переменные, которые были включены нами в «истинную» спецификацию, по которой генерировались данные. Единственное исключение касается переменной Х10, которая входила в «истинную» спецификацию, но не вошла в статистически выбранную, куда вместо нее вошла переменная Х9. Нет никаких гарантий, что та или иная процедура позволит всегда и при любых обстоятельствах определять истинную спецификацию модели. Единственное, на что можно надеяться, - это то, что выбранная спецификация окажется достаточно работоспособной, когда дело дойдет до практического применения.

Процедуры выбора объясняющих переменных применялись только на тех из 525 предприятий, прошлая проверка которых дала положительный результат, а таких предприятий было 265. Применение всех трех процедур дало одинаковый набор переменных - Х1, Х3, Х4, Х6 и Х10. В спецификацию не были выбраны переменные Х2 и Х9. По всей видимости, эти две переменные оказались неважными предсказателями дополнительных начислений на выборке, которая использовалась для оценки.

Оцененные логит-модель и регрессионную модель с выбранными объясняющими переменными мы применили затем для того, чтобы для каждого из 4899 предприятий, оставшихся непроверенными, попробовать предсказать размер потенциального доначисления. Эти предсказанные значения вычислялись нами как произведения вероятности ненулевого начисления в случае проверки на ожидаемую величину доначисления при условии, что доначисление будет положительным. Значение вероятности выдавалось моделью логит, а ожидаемая величина доначислений - регрессионной моделью.

Поскольку данные по уходу от налогов были сгенерированы для всех предприятий, можно теперь оценить, насколько эффективно работает модель статистического выбора. Для этого сравнивают полученный с ее помощью результат с максимально возможными доначислениями (т.е. если бы проверка была сплошной) и при проверке предприятий, отбираемых случайным образом. Соответствующие цифры представлены в таблице:.

Результаты практического применения статистической модели

Количество деклараций, по которым были проведены проверки, % охвата плательщиков проверками Максимально возможный средний размер доначислений в расчете на одну проверку, тыс. руб. Фактический средний размер доначислений (в расчете на одну проверку), полученный с использованием статистических методов отбора, тыс. руб. Прогнозный средний размер доначислений в расчете на одну проверку: прогноз статистический, тыс. руб.
100 деклараций (2,05 % охвата) 292 896 72 970 65 158
200 деклараций (4,1% охвата) 158 752 42 162 46 352
500 деклараций (10,2% охвата) 68 269 22 112 28 842
1000 деклараций (20% охвата) 35 019 17 268 20 385

Средний размер доначислений (ухода от налогов) по 4 899 предприятиям составил 7 670 тыс. руб. Таким образом, если бы предприятия выбирались для проверки случайным образом, средняя величина доначислений составила бы 7 670 тыс. руб. При использовании статистической процедуры выбора все предприятия ранжируются по величине ожидаемых доначислений от наибольшей суммы до наименьшей. Таким образом, удельный размер доначислений в расчете на одну проверку будет скорее всего снижаться по мере роста числа проверок. Как видно из таблици, именно так и происходило. Мы видим, что при переходе от проверки самых перспективных предприятий к менее перспективной группе и далее вниз средняя продуктивность проверки снижается от 72 970 тыс. руб. до 17 268 тыс. руб. Таким образом, направленный статистический выбор предприятий существенно превышает по своей продуктивности случайный выбор, особенно если средств на проведение проверок выделяется мало и есть возможность проверить лишь небольшое число предприятий.

С другой стороны, продуктивность процедур направленного статистического выбора оказалась существенно более низкой, чем максимально возможный результат. Например, если бы мы заранее могли знать, какие 100 предприятий из имеющейся выборки скрыли максимальное количество прибыли от налогов, и проверили бы только их, то средний размер доначислений в расчете на одну проверку составил бы 292 896 тыс. руб., что примерно в 4 раза выше средней продуктивности проверок первых 100 предприятий, отобранных по статистическим признакам. Причина такого большого расхождения заключается в том, что мы специально выбирали параметры истинных статистических моделей таким образом, чтобы за счет наблюдаемых характеристик предприятий можно было бы объяснить лишь небольшую часть (порядка 10 %) вариации моделируемой переменной. Так было сделано специально для реалистичности. На практике приходится иметь дело с огромным разбросом в степени законопослушности среди налогоплательщиков с аналогичными, весьма похожими наблюдаемыми характеристиками, так что надеяться на то, что когда-нибудь удастся со стопроцентной вероятностью «вычислять» самых злостных неплательщиков, не стоит. Главное, что мы хотели продемонстрировать, - это то, что статистические методы позволяют нам весьма эффективно эксплуатировать ту, пусть небольшую, часть вариации доначислений, которые все же можно объяснить с помощью наблюдаемых характеристик налогоплательщиков. Даже если часть эта весьма мала, потенциальный выигрыш от использования этой информации может быть большим.

Результаты расчетов по статистическим моделям, аналогичным представленным в настоящей работе, можно использовать для прогнозирования доначислений при разных степенях охвата плательщиков налоговыми проверками еще до того, как эти проверки будут фактически проведены. Это может пригодиться для планирования выездных налоговых проверок. Прогнозные величины средних доначислений в расчете на одну проверку при разных степенях охвата налогоплательщиков налоговыми проверками представлены в таблице выше.

В большинстве случаев прогнозные значения оказались в пределах ± 10% от фактических. На практике точность прогнозов будет зависеть от устойчивости случайного возмущения регрессии (необъясненной доли вариации) и от размеров выборки, на которой оценивалась модель. Меру точности прогнозных значений доначислений получить в любом случае достаточно легко, и можно всегда создать доверительный интервал необходимого размера, в котором будет лежать истинное значение доначислений.

Представленные в таблице выше результаты получены исходя из предположения о том, что всем рассматриваемым декларациям был назначен наивысший ранг, при котором они подвергаются документальной проверке. На практике полученные с помощью моделей результаты передаются эксперту-классификатору, который еще раз анализирует выбранные декларации. Участие эксперта-классификатора, как правило, позволяет повысить эффективность всего процесса, поскольку он еще больше сужает выбор, бракуя те отобранные компьютером случаи, которые с его точки зрения не заслуживают внимания. Кроме того, эксперт-классификатор может оказать большую помощь налоговому инспектору, которому будет поручено проведение налоговой проверки, подсказав ему те вопросы или графы на декларации, проверка которых может дать особенно большой объем дополнительных начислений.

Rambler's Top100

Copyright © 2010