Исследователь решил выяснить, позволят ли возможности ИИ заменить стандартные клик-фермы Captcha.
Он напомнил, что в 2014 году Google выпустила reCaptcha v2, которая на сегодняшний день стала самым популярным решением для проверки кода. Чтобы незаконно продвигать компании, продукты, а также производить иные действия, хакерам необходимо создавать тысячи фейковых аккаунтов. Капча же гарантирует, что за компьютером находится настоящий человек. Если система может пройти тест, это позволяет хакеру автоматизировать процесс создания пользователя. Обычно злоумышленники платят клик-фермам по проверке капчи, где люди решают тесты за определённую плату. В среднем, она составляет $3 за 1000 тестов.
Тест Captcha разбивает изображение на квадраты 4х4 и предлагает найти конкретный объект (например, светофор). Один из подходов к решению такой капчи — использовать модель классификации изображений и запустить её 16 раз на каждом квадрате. Однако это может не сработать, поскольку изображение может пересекать несколько квадратов, и идентифицировать его часть будет сложно.
Исследователь решил обучить свою модель ИИ решению теста. Он использовал библиотеку Pythonuckduckgo-search с поиском по некоторым ключевым словам, например «легковые и грузовые автомобили на дороге со светофором», «машины на перекрестке», «автомобили и автобусы на дороге на остановке».
Поиск подходящих фотографий и маркировка заняли много времени. Некоторые изображения были аэрофотоснимками, другие содержали водяные знаки, а третьи были художественными фотографиями. В итоге исследователь смог отобрать около 30 фотографий.
После обучения модель не справилась с задачей. Одна из причин заключается в том, что набор данных был слишком мал.
Тогда исследователь решил использовать предварительно обученную модель сегментации изображений. Он нашёл на HuggingFace такой алгоритм и подобрал модель от Nvidia, которая предварительно обучена на наборе данных городского пейзажа. Тестирование модели показало, что она отлично распознаёт светофоры.
Исследователь написал сценарий, включающий следующие шаги:
измените размер изображения до 1024x1024,
используйте библиотеку Python-трансформера для создания экземпляра модели и передачи изображения с изменённым размером в качестве входных данных.
Поскольку модель возвращает список масок для каждого объекта, который она может идентифицировать, исследователь отобрал маску светофора и смог вычислить, в какой из 16 квадратов он попадает.
Он провёл несколько базовых тестов производительности на различном оборудовании с помощью Hugging Face и RunPod, а затем подсчитал стоимость решения 1000 тестов. Как и ожидалось, модель работает намного быстрее на графическом процессоре, чем на центральном. Их эксплуатация обходится дороже, но можно сэкономить на процессе, если использовать спотовые общественные экземпляры GPU. Самый дешёвый вариант — это RTX 4000 Ada, который может обрабатывать каждое изображение за 1 секунду и стоит $0,15 в час или $0,05 доллара за 1000 капч.
Это всё равно дороже, чем цена в $0,003 за изображение, взимаемая клик-фермами.
При этом службы капчи, такие как Google ReCaptcha или hCaptcha, имеют другие средства контроля безопасности и методы оценки рисков, которые выходят за рамки решаемой исследователем задачи.
Между тем пользователь Bing Chat от Microsoft смог обойти запрет на распознавание ИИ графических пазлов капчи нового поколения.
Источник новости: habr.com