Разработана новая техника автоматического обнаружения спам-писем

Спам-письма — это нежелательные сообщения, которые часто массово рассылаются множеству случайных пользователей. Эти сообщения могут содержать рекламу, а также фишинговые ссылки или вредоносное ПО. Автоматическая фильтрация электронных писем и идентификация спам-сообщений очень выгодны, поскольку они могут снизить риск фишинговых атак и упростить пользователям навигацию по своим учетным записям.

За последние несколько лет ученые-компьютерщики разработали все более совершенные вычислительные модели для автоматического обнаружения спама. Однако для хорошей работы большинство этих моделей необходимо обучать на больших наборах данных электронной почты, которые были помечены людьми вручную.

Исследователи из Синггадского технологического института Лонавала в Индии недавно создали новую технику автоматического обнаружения спам-писем. Этот метод, представленный в статье, опубликованной в Международном журнале интеллектуальной робототехники и приложений, может помочь повысить безопасность пользователей, а также помочь им просматривать нерелевантные или нежелательные электронные письма.

«Наша модель также снижает скорость обучения и приводит к большей эффективности классификации», — сказал TechXplore Викас Самартрао Кадам, один из исследователей, проводивших исследование. «В отличие от других моделей, это увеличивает скорость сходимости обнаружения спама по электронной почте, достигая лучших результатов».

Модель, разработанная Кадамом и его коллегами, основана на многоцелевом выборе признаков и на адаптивной капсульной сети — новом многообещающем методе глубокого обучения. В отличие от других ранее разработанных методов, модель обучалась как на графических, так и на текстовых наборах данных.

«Наша модель представляет новый гибридный эвристический алгоритм и обеспечивает оптимальный выбор функций с многокритериальной функцией», — пояснил Кадам. «Наша работа подтверждает обещание новых и улучшенных моделей обнаружения, основанных на алгоритмах глубокого обучения. Автоматическое обнаружение спам-писем необходимо из-за его простоты».

Модель, разработанная исследователями, проста в реализации и может быть обучена быстро за короткие промежутки времени. В ходе первоначальных оценок Кадам и его коллеги обнаружили, что он может обнаруживать спам с большей точностью, чем другие существующие методы.

«Обнаружение спама имеет важное значение, поскольку оно может обеспечить справедливость для продавцов и сохранить доверие покупателей к интернет-магазинам», — сказал Кадам. «В отличие от других методов, это повышает скорость обучения и эффективность классификации. Наша модель может улучшить качество жизни людей, которые получают большое количество электронных писем, позволяя им беспрепятственно просматривать свою электронную почту и использовать свои учетные записи только для своих целей».

В будущем метод фильтрации спама, созданный Кадамом и его коллегами, может быть реализован в больших масштабах, что повысит безопасность и эффективность почтовых сервисов. Примечательно, что модель может быть применена к широкому спектру существующих служб, включая Gmail, почту Yahoo и Outlook.

«Почти все исследователи представляют свои результаты, основываясь на точности, достоверности и полноте своих моделей, но мы считаем, что временная сложность моделей машинного обучения также должна рассматриваться как показатель оценки», — сказал Кадам. «Некоторые исследователи показывают многообещающие результаты в процессе извлечения признаков с использованием набора слов, поскольку они утверждают, что заголовок электронной почты так же важен для обнаружения спама, как и содержание тела. рассмотреть в будущем».

До сих пор новый метод фильтрации спама, разработанный этой исследовательской группой, достиг очень многообещающих результатов, поскольку он мог эффективно обнаруживать электронные письма со спамом с высокой точностью. Однако Кадам и его коллеги считают, что его скорость и точность могут быть улучшены в будущем.

«Безопасность систем обнаружения и фильтрации спама имеет решающее значение для достижения большей точности и надежных результатов, которые можно улучшить в будущем с помощью ансамблевого обучения», — добавил Кадам. «Коэффициент ложных срабатываний многих моделей все еще выше, чем требуется, но в будущем его следует снизить до минимально возможного значения. Крайне необходима классификация спама в реальном времени , так как большинство предлагаемых моделей плохо работают в режиме реального времени.»