Эксперт спрогнозировал рост числа кибератак с использованием дипфейков
Количество кибератак, в которых используются дипфейки, за три года может вырасти до десятков миллионов — это связано с тем, что технологии искусственного интеллекта станут общедоступными, каждый сможет клонировать голос или наложить свое или чужое лицо на фото и видео, таким мнением с РИА Новости поделился исполнительный директор MTS AI Дмитрий Марков. «Если сегодня число подтверждённых атак с использованием дипфейков исчисляется десятками тысяч, то в ближайшие несколько лет (я бы сказал, через три года) речь уже пойдёт о десятках миллионов таких атак. Всё потому, что эти технологии станут общедоступными: подобно тому, как сегодня любой может сгенерировать текст с помощью больших языковых моделей OpenAI или DeepSeek, вскоре каждый сможет клонировать голос или наложить своё или чужое лицо на фото и видео», — сказал Марков. Эксперт допускает, что уже сегодня реальное число атак с дипфейками может быть значительно выше, чем указывается в официальных источниках — большинство пользователей сообщают о мошенничестве только в тех случаях, когда надеются вернуть похищенные средства.
При этом, добавил Марков, технологии создания дипфейков развиваются гораздо быстрее, чем методы их выявления. «Например, чтобы создать аудиодипфейк, злоумышленникам достаточно 10-15 секунд записи голоса человека. Самые распространённые атаки с применением аудиодипфейков — это синтез голоса и склейка аудио из фрагментов ранее записанной речи. Злоумышленники используют эти инструменты, чтобы создать поддельные голоса родственников и коллег с целью кражи денег», — сказал он.
Что касается видеодипфейков, основным видом атак с ними стала замена лица: например, молодой человек использует лицо девушки, чтобы вовлечь других мужчин в мошеннические схемы или установить с ними контакт в приложении для знакомств. Также используется технология синхронизации губ для совпадения с другой аудиозаписью или текстом, что создаёт иллюзию настоящей речи — это, к примеру, видео родственников жертвы для вымогательства у неё денег через мессенджеры. Сейчас с решением проблемы аудиодипфейков может помочь использование дипфейк-детекторов в режиме реального времени: нейросетям достаточно трех-пяти секунд, чтобы отличить настоящий голос от подделки, а точность уже достигает 98,29%. «Нейросети распознают мельчайшие особенности звука, такие как шумы, типичные для искусственно сгенерированных голосов, а также понимают, как один фрагмент аудиозаписи связан с другими, и учитывают интонацию, паузы или длительность звуков», — добавил Марков.