AI компаниите извличат информация от сайтове, дори те да не са съгласни с това

Павлин Луканов Последна промяна на 25 юни 2024 в 18:02 1200 0

Снимка Copilot/Dall E AI Image

Google обновява търсенето на изображения

14/07/2026

Скоро може да няма нови мощни AI модели с отворен код

Компаниите разработващи технологии с изкуствен интелект имат нужда от огромни обеми от данни, за да обучават моделите си. Неопределена част от тях използват меко казано противоречивата практика да извличат данни от интернет пространството, без изричното разрешение на собствениците на сайтове. Макар с времето да бяха предприети някои мерки срещу това, те е доста вероятно да не са особено ефективни.

През изминалите дни сме свидетелите на нападки срещу компанията Perplexity, която предлага безплатна търсачка с изкуствен интелект. Малко след като Forbes я обвини за кражба на статия и разпространението и в редица платформи, Wired разкри, че Perplexity пренебрегва приложения от изданието Robots Exclusion Protocol (robots.txt) и извлича данни от сайта и други публикации на Condé Nast. Технологичният сайт The Shortcut също обвини компанията за извличане на статии, а Reuters разкрива, че Perplexity не е единствената компания за AI, която прескача файловете robots.txt и извлича данни от сайтове, като използва съдържанието да обучава решенията си.

Reuters са получили достъп до писмо, което е адресирано то издатели от TollBit, стартъп, който ги свързва с компании за AI, с цел постигане на споразумения. В писмото те биват предупредени, че AI агенти от различни компании решават да прескочат протокола robots.txt и да се сдобият със съдържанието от сайтове. robots.txt съдържа инструкции за уеб обхождащите системи (web crawlers) относно страниците, до които нямат достъп. Протоколът се използва от 1994 г., но разбира се спазването на ограниченията е на доброволен принцип.

В писмото не се посочват конкретни компании, но според Business Insider става дума за още OpenAI и Anthropic, създателите на съответно чат ботовете ChatGPT и Claude. В предходни случаи и двете компании са заявявали, че уважават инструкциите в robots.txt.

В рамките на разследването си Wired са открили, че машина на Amazon сървър, оперирана от Perplexity, пренебрегва инструкциите в robots.txt. Проведен е и експеримент с подаване на набор от информация, което след това се появява леко перефразирана, а в някои случаи с неточно резюмиране на материала.

В интервю за Fast Company главният изпълнителен директор на Perplexity Аравинд Сринивас заяви, че компанията „не пренебрегва протокола“. Това обаче не означава, че тя не се възползва от обхождащите системи, които пренебрегват протокола. Сринивас обясни, че компанията използва уеб обхождащи програми на трети страни в допълнение към своите собствени и че обхождащата програма, идентифицирана от Wired, е една от тях.