Cloudflare создала инструмент для борьбы с ботами ИИ, которые незаконно собирают данные с сайтов

295

04.07.2024

Американский облачный сервис Cloudflare представил креаторам функцию защиты контента от ботов, которые используют его для обучения моделей искусственного интеллекта. Этот инструмент доступен сейчас бесплатно, сообщает overclockers.ru.

Нейросети, в том числе известный ChatGPT, обучаются за счет текстов, изображений и прочей информации, которая есть в открытом доступе. Многие владельцы интернет-ресурсов опасаются, что ИИ может использовать эти данные без разрешения и компенсации.

Согласно исследованию сервиса Originality.ai, около 26% из 100 крупнейших новостных сайтов заблокировали бота OpenAI, а 242 сайта из 1000 наиболее популярных также сейчас ограничивают GPTBot. Более 600 крупных новостных издателей уже заблокировали различных ботов.

Cloudflare проанализировала трафик поисковых роботов, разработала автоматические модели их обнаружения. Они учитывают различные факторы, включая попытки ботов имитировать действия человека, использующего веб-браузер. Также создана специальная форма, позволяющая сообщать о подозрительных ботах и сканерах. На основе полученных данных Cloudflare будет заносить ботов ИИ в специальный черный список.

Некоторые крупные компании, как Google, OpenAI и Apple, позволяют владельцам сайтов блокировать ботов через файл robots.txt. Однако эти правила, к сожалению, соблюдают не все. Cloudflare отмечает, что некоторые компании намеренно позволяют нейросетям обходить ограничения доступа к контенту. ИИ постоянно адаптируется и меняет свои алгоритмы, чтобы избежать обнаружения.

Фото: getty