Главная

Выбор налогоплательщиков с использованием интеллектуального анализа данных

В последнее время налоговые службы некоторых стран начали экспериментировать с использованием методов интеллектуального анализа данных для отбора налогоплательщиков. Основное назначение этих методов - автоматизированный поиск ранее неизвестных закономерностей в базах данных, хранящих информацию о деятельности организаций, и использование добытых знаний при принятии решений. К этим методам относятся экспертные системы, нейронные сети, отбор налогоплательщиков по результатам статистического анализа.

Экспертная система - это по существу автоматизированная процедура, использующая для отбора налоговых деклараций некоторый набор правил (в качестве «правил» могут выступать и значения конкретных полей в налоговой декларации). Эти правила в точности повторяют те, которые на самом деле используют в своей работе самые опытные и продуктивные налоговые инспектора. Например, экспертные системы используются в Налоговом управлении Канады для отбора деклараций по налогу на прибыль предприятий и НДС для проверки. Для разработки экспертных правил отбора в Канаде была создана группа из 30 самых лучших налоговых инспекторов. Налоговые инспектора рассказали специалистам по искусственному интеллекту, почему те или иные декларации им кажутся подозрительными, на что нужно будет обратить первоочередное внимание при проверке, и каких сумм дополнительных начислений следует ждать. Все эти правила программисты ввели в систему компьютеризированного отбора налогоплательщиков, которая действует при Налоговом управлении Канады. При этом в качестве источников данных используются данные по налоговым декларациям, о проведенных проверках, о структуре получаемых доходов в той местности, где живет налогоплательщик. Когда все правила были введены в эту систему, появилась возможность в автоматизированном режиме просматривать налоговые декларации и выставлять им «оценки» - стоит их проверять или не стоит, и если стоит, то каких доначислений можно ожидать.

В одном из отчетов Налогового управления Канады приводится, в частности, такой пример, объясняющий, как работает система. По отрасли «Сдача в аренду зданий и помещений» попалась налоговая декларация, в которой заявлены значительные убытки, понесенные из-за низкого валового дохода. Специалисты построили компьютеризированную процедуру, позволяющую определить справедливую рыночную рентную цену любой сдаваемой в аренду недвижимости, исходя либо из заявленных в декларации расходов на выплату процентов (если недвижимость куплена в долг), либо расходов на уплату налога на имущество (если недвижимость уже принадлежит владельцу). Если окажется, что доход от сдачи недвижимости в аренду существенно ниже ее рыночной рентной оценки, полученной вышеуказанным способом, то эта декларация помечается на предмет возможного занижения рентного дохода. Затем оценивается возможная сумма дополнительных начислений в соответствии с теми же правилами оценки и уровнями доверия, которыми пользуются лучшие специалисты.

Другая категория моделей искусственного интеллекта, которая также иногда используется для отбора налогоплательщиков, - это нейронные сети, которые представляют собой упрощенные модели мозга. Эти программы обладают свойством самонастройки на последовательность входных данных. Настроенная таким образом нейронная сеть обеспечивает на выходе вполне определенную реакцию на данные, поступающие на вход и обладающие такими же характеристиками, что и обучающая выборка, и иную реакцию на данные, обладающие другими свойствами. Искусственный нейрон имитирует в первом приближении свойства биологического нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, каждый из которых является выходом другого нейрона. Каждый вход умножается на соответствующий вес, и все произведения суммируются, определяя уровень активизации нейрона. Для отбора налогоплательщиков - кандидатов для проведения налоговых проверок на вход обученной нейронной сети подается последовательность векторов, компонентами которых являются параметры налогоплательщиков. Нейронная сеть отбирает тех налогоплательщиков, которые обладают такими же характеристиками, что и обучающая выборка.

Например, можно так построить алгоритм, что он будет разбивать налоговые декларации на два класса - те, налоговая проверка которых может дать большие дополнительные начисления, и те, по которым вероятность больших доначислений мала. Для того чтобы «научить» нейронную сеть отличать декларации одного типа от другого, используется файл данных (его называют «учебным файлом»), в котором содержатся информация по результатам прошлых проверок и данные из налоговых деклараций проверенных налогоплательщиков. Когда нейронная сеть «научится» классифицировать налоговые декларации, результаты проверки которых уже известны, ее можно начинать использовать для классификации налоговых деклараций, по которым такие проверки еще не проводились.

Налоговые декларации, отобранные нейронной сетью как потенциально продуктивные, обычно рассматриваются экспертом, который и принимает окончательное решение - стоит их проверять или нет, и если стоит, то на какие вопросы следует в первую очередь обратить внимание. Данный подход может использоваться как метод выявления связей между значениями, указанными в конкретных полях налоговых деклараций, и вероятным уходом от налогов, т.е. в качестве предварительной процедуры отбора, результаты которой могут использоваться в других процедурах отбора, например в статистических моделях.

Налоговые службы многих стран обрабатывают налоговые декларации с помощью статистических методов, например регрессионного или дискриминантного анализа, и по результатам такого анализа строят формулы, позволяющие на основе данных, содержащихся в налоговой декларации, определять, сулит ли проверка данного налогоплательщика большие дополнительные начисления или нет. Документальной проверке налогоплательщиков, отобранных по этим признакам, уделяется затем первоочередное внимание. В том или ином виде данный подход используется во многих странах. Например, в Федеральном налоговом управлении США строят специальный массив данных по результатам особо тщательных проверок случайных стратифицированных (разделенных) выборок физических лиц и предприятий малого и среднего размера, проводимых в рамках программы «Измерение законопослушности налогоплательщиков». Отобранные случайным образом налоговые декларации стратифицируются (разбиваются на группы) по основному источнику дохода, по размеру дохода или размеру фирмы (размер фирмы определяется валовым доходом). Затем с помощью статистических методов строится математическая формула, которая предсказывает вероятность того, что документальная проверка подателя данной конкретной налоговой декларации приведет к доначислениям. При этом указанная формула представляет собой функцию от показателей, которые налогоплательщик указывает в своей налоговой декларации. Обычно эта формула строится так. Берется конкретная группа (страта) налоговых деклараций, по которым уже известны результаты доначислений, и все эти налоговые декларации разбиваются на два класса: «стоило проверять» и «не стоило проверять» (1 и 0). Принадлежность декларации к одной из этих двух категорий - это и есть моделируемая переменная. При этом задача регрессионного анализа - определить, какую оценку получает данная декларация - 0 или 1 в зависимости от того, какие данные указаны в этой декларации налогоплательщиком.

Построение формулы начинают с того, что в ее правую часть в качестве объясняющих переменных включают большое число переменных (допустим, 150), а затем начинают постепенно исключать те переменные, чей вклад в объяснение зависимой переменной («проверять» - «не проверять») невелик. При этом обычно в формулу подставляют не сами значения, указанные в налоговой декларации, а их бинарные аналоги, которые принимают значение 1, если указанное в декларации значение попадает в некоторый интервал, и 0, если оно лежит вне этого интервала. Кроме того, в такой формуле часто используются не абсолютные значения указанных в декларации переменных, а некоторые более сложные показатели, например отношения между значениями, стоящими в разных полях.

Таким образом, вначале составляется довольно большой список переменных-кандидатов на включение в формулу, затем с помощью статистического анализа этот список сокращается до небольшого числа переменных (порядка 10), вклад которых в объяснение моделируемой переменной наиболее значителен. После этого окончательная версия модели или формула применяется ко всем налоговым декларациям данного класса, и отобранные по формуле декларации передаются особо квалифицированному налоговому инспектору, которого, например, в Федеральном налоговом управлении США принято называть «классификатор».

Классификатор просматривает все эти декларации и по каждой дает свое заключение - следует или не следует проводить налоговую проверку данного налогоплательщика, и если следует, на каких именно вопросах должна сосредоточиться проверка. На должность классификатора назначают самых опытных налоговых инспекторов, прекрасно разбирающихся во всех тонкостях налоговых проверок. Примерно половина всех выездных налоговых проверок по налогам на доходы физических лиц и корпораций в США проводится по налогоплательщикам, отобранным по таким формулам.

Rambler's Top100

Copyright © 2010