Хранилища данных - статьи

         

Вес груза декларируется верно, но


Вес груза декларируется верно, но фальсифицируется наименование товара — в декларации указывается близкий по характеристикам товар с меньшей ставкой таможенной пошлины. В результате для определенных групп товаров наблюдается существенный прирост импорта по сравнению с данными ЕС. Эта схема ухода от таможенных платежей хорошо известна таможенным органам как «товар прикрытия».

Даже использование таких простейших способов анализа данных как гистограмма позволило выделить наличие определенных тенденций и оценить масштаб искажения данных. Более того, уже на этом этапе возможно сформулировать определенные критерии для отбора групп товаров наиболее подверженных фальсификациям. В то же время распределения, приведенные на рис. 1 и 2, показывают, что сделанный нами выбор переменных был не очень удачным с точки зрения алгоритмов кластеризации — плотность данных довольно монотонно падает от центра к краям распределения. Чтобы воспользоваться алгоритмами кластеризации нам пришлось переопределить переменные, введя следующие переменные:





Основное отличие новых переменных — ограниченный диапазон принимаемых значений:



Распределение, аналогичное приведенному на рис. 2, в новых переменных показано на рис. 3.





Рис. 3. Совместное распределение относительных отклонений по стоимости (dCOSTmean) и весу (dNETTOmean) для случаев импорта
В данном случае налицо как минимум три кластера, а применение алгоритма Darwin Match позволило легко выделить 4 кластера (рис. 4).





Рис. 4. Кластеры совместного распределения относительных отклонений по стоимости (dCOSTmean) и весу (dNETTOmean) для случаев импорта
Интересно, что последний из кластеров (кластер 4) не идентифицируется «глазом» как отдельный кластер (рис. 3), в то время как ему соответствует наиболее насыщенная недостоверно оформленными декларациями область, что хорошо видно, если найденные кластеры представить в наших первоначальных координатах (рис. 5).





Рис. 5. Найденный с помощью Darwin Match кластер в переменных netto-cost
Конечно, в случае двух переменных кластеризация может быть легко выполнена визуально по построенной гистограмме, нам же здесь было важно показать возможность использования алгоритма и выбрать подходящие переменные, которые могут быть использованы в более сложном анализе.


Содержание  Назад  Вперед







Forekc.ru
Рефераты, дипломы, курсовые, выпускные и квалификационные работы, диссертации, учебники, учебные пособия, лекции, методические пособия и рекомендации, программы и курсы обучения, публикации из профильных изданий