OpenAI пусна уеб обхождащ бот за обучение на ChatGPT, вижте как да го блокирате

Мария Иванова Последна промяна на 10 August 2023 в 15:04 1433 0

Снимка Igor Miske/Unsplash

Клавишни комбинации с Shift, които ускоряват работата с Windows 11

21/06/2026

Как да спрем проследяването в Android смартфона си

Тази седмица OpenAI пусна бот, който обхожда уебсайтовете и сканира съдържанието им, за да обучава големите езикови модели (Large language model - LLM), захранващи ChatGPT. В същото време компанията позволи на собствениците и разработчиците да блокират достъпа на GPTBot до сайтовете им, така че информацията в тях да не може да се използва за обучение на системите с изкуствен интелект.

Разработчиците могат да блокират IP адреса на GPTBot или да го добавят към robots.txt файла на сайта, който дава указания на обхождащите машини кое съдържание е достъпно и кое - не. За да блокирате достъпа на GPTBot до части от даден уебсайт, трябва да добавите към файла "Allow: /директория-1/" и "Disallow: /директория-2/" и да го персонализирате, ако е необходимо.

"Уеб страниците, обхождани с GPTBot, могат потенциално да бъдат използвани за подобряване на бъдещи модели и се филтрират, за да се премахнат източници, които изискват платен достъп, за които е известно, че събират лична информация или съдържат текст, който нарушава нашите политики" - се казва в публикация на уебсайта на OpenAI. "Разрешаването на достъпа на GPTBot до вашия сайт може да помогне на моделите с изкуствен интелект да станат по-точни и да подобри общите им възможности и безопасност"- допълват още от екипа на компанията.

До момента OpenAI не е съобщавала за използването на уеб обхождащи машини за обучение на GPT-3.5, който стои зад безплатната версия на ChatGPT. Или на GPT-4 - най-новия LLM, който е на разположение на абонатите на платения ChatGPT Plus и захранва AI чатбота на Microsoft - Bing Chat.

Въпреки че не е ясно дали GPTBot е използван за обучение на наличните в момента големи езикови модели на OpenAI, това може да е софтуерът, който обучава GPT-5, особено след като компанията подаде заявка за търговска марка на името през юли. Въпреки че OpenAI не е обявила дата на пускане на GPT-5, се очаква той да бъде по-мощен и по-голям от GPT-4, който е най-големият наличен LLM до момента.

След стартирането на ChatGPT, OpenAI беше подложена на няколко съдебни дела, в които се твърди, че инструментът за изкуствен интелект краде данни от потребителите. Заради дело за нарушаване на авторските права, компанията дори стана обект на разследване от страна на Федералната търговска комисия. А уебсайтове като Stack Overflow, Reddit и Twitter заявиха, че планират да започнат да таксуват AI компаниите за достъп до техните данни.

Въпреки належащата необходимост от по-строг контрол върху използването на информацията в онлайн пространството, все още не е ясно в каква степен блокирането на GPTBot, ще спре големите езикови модели да поглъщат съдържание. Генеративните платформи за изкуствен интелект вече са извлекли голям обем обществено достъпни данни, които са използвали в своето обучение. Ето защо опитът да се ограничат големите езикови модели може да се окаже по-сложен процес.