Поскольку мошенники в бухгалтерском учете становятся все более изощренными в своих методах, обнаружение мошенничества должно усилить свою игру. К счастью, группа исследователей разработала новый «детектив» с машинным обучением, который способен анализировать не только мошенничество в одной фирме, но и предсказывать вероятное мошенничество во всех цепочках поставок и отраслях.
Статья, описывающая подход команды, была опубликована в журнале Big Data Mining and Analytics 28 августа.
Мошенничество с финансовой отчетностью или, чаще, бухгалтерское мошенничество может быть менее распространенной формой корпоративного мошенничества, но это, безусловно, самое дорогостоящее преступление в мире. Возможно, наиболее известными случаями преступления «белых воротничков» можно считать бухгалтерское мошенничество, когда предприятие манипулирует цифрами в своих финансовых отчетах или другими данными оценки, чтобы оно выглядело более прибыльным, чем оно есть на самом деле.
Крах американской энергетической компании Enron, крупнейшее банкротство в истории США, произошел из-за фальсификации бухгалтерских книг в сговоре с их бухгалтерской фирмой. В 2008 году Lehman Brothers объявил о банкротстве из-за неплатежеспособности, скрыв около 50 миллиардов долларов долга с помощью мошенничества с балансом. В конце 2010-х годов американский инвестиционный консультант Берни Мейдофф умудрился обмануть клиентов на колоссальные 65 миллиардов долларов.
Не только инвесторы страдают от мошенничества с финансовой отчетностью. Сотни тысяч рабочих мест могут быть потеряны, сообщества опустошены, а в самых крайних случаях, через косвенные эффекты, это может угрожать стабильности национальных экономик.
Несмотря на угрозу, которую представляет такое мошенничество, властям по-прежнему очень сложно его поймать. Такие тревожные сигналы, как внезапный всплеск производительности компании непосредственно перед окончанием отчетного периода или стремительный рост продаж при вялом росте продаж конкурирующих фирм, могут оказаться просто результатом удачи или превосходного продукта. И поэтому на протяжении десятилетий судебные аудиторы использовали статистический анализ для выявления манипуляций.
Но такие усилия чрезвычайно трудоемки и требуют прочесывания огромных объемов данных. В результате власти, как правило, полагаются на случайные проверки, но это означает, что большинство фирм большую часть времени остаются без проверки.
«Что еще хуже, в последние годы мошенники стали все более изощренными в применяемых ими методах», — сказал Чэньсюй Ван, ведущий автор статьи и доцент Школы программной инженерии и Ключевой лаборатории интеллектуальных сетей и сетевой безопасности Сианьского университета Цзяотун. «Это бесконечная математическая гонка вооружений между властями и мошенниками».
«Необходим эффективный и точный алгоритм для автоматического выявления мошенничества в бухгалтерском учете и оставления дней выборочных проверок в прошлом», — сказал Мэнцинь Ван, также работающий в Сианьском университете Цзяотун.
Ряд математиков и компьютерных ученых , специализирующихся в этой теме, добились определенных успехов в этом отношении с помощью машинного обучения. Однако до сих пор этот подход применялся только к отдельным фирмам.
«Это упускает из виду часто запутанные отношения между различными фирмами, которые также могут служить индикаторами мошенничества», — сказал Йи Лонг, другой член команды, но из Шэньчжэньского финансового института при Китайском университете Гонконга, Шэньчжэнь. «Бухгалтерская фирма, которая вступает в сговор с одной компанией в мошенничестве с финансовой отчетностью, имеет повышенную вероятность участия в мошеннических действиях с другими компаниями».
И мошеннические отношения распространяются не только между бухгалтерскими фирмами и их клиентами. Практики мошенничества в сфере бухгалтерского учета могут распространяться вверх и вниз по цепочкам поставок или закрепляться горизонтально по отраслям.
Но включение данных за пределами одной фирмы означает соразмерное увеличение вычислительных затрат. Более того, существующие подходы машинного обучения страдают от серьезного дисбаланса в выборках, используемых для обучения компьютерной модели классификации чего-либо как мошенничества, поскольку нормальные, не мошеннические выборки значительно превосходят по численности реальные случаи мошенничества. Этот дисбаланс может привести к предвзятым компьютерным моделям, которые отдают приоритет большинству классов, не мошенническим случаям, что затрудняет точное обнаружение мошеннических действий.
Чтобы преодолеть все эти проблемы, исследовательская группа разработала технологию машинного обучения в сочетании с математическими методами, взятыми из области теории графов.
Разработанный ими передовой искусственный интеллект для расследования финансового мошенничества включает в себя граф, структуру, которая математически представляет связи или отношения (описываемые как ребра) между различными компаниями, лицами и продуктами (описываемыми как узлы). А многореляционные графы допускают несколько типов ребер, позволяя представлять разнообразные отношения между узлами, и предлагают более полное представление сложности связей между ними.
А сам детектив, называемый FraudGCN, представляет собой графовую сверточную сеть, или GCN, тип нейронной сети, предназначенный для работы с данными, структурированными графом. В отличие от традиционных нейронных сетей, которые работают с данными, подобными сетке, такими как изображения, GCN могут работать с данными, представленными в виде графов.
FraudGCN сам по себе создает многореляционный граф, представляющий различные отраслевые связи, связи цепочки поставок и общие аудиторские практики бухгалтерских фирм, и тем самым собирает богатую информацию, вытекающую из этих связей, в частности, детали, обнаруженные в определенных «соседствах» узлов в графах. Объединяя такую информацию, FraudGCN не только повышает способность выявлять закономерности, указывающие на существующие вероятные мошеннические действия, но и предсказывать, где они, скорее всего, возникнут.
Наконец, в отличие от предыдущих попыток обнаружения мошенничества с помощью машинного обучения , FraudGCN способен обрабатывать добавление новых узлов без необходимости переобучения модели, что повышает ее адаптивность и масштабируемость.
Команда протестировала FraudGCN на реальном наборе данных китайских листинговых компаний, чтобы оценить его эффективность, и обнаружила, что он превосходит самые современные подходы на 3,15–3,86%.
В дальнейшем команда надеется разработать свой подход, который позволит работать не только с крупными, но и со средними предприятиями.