За Microsoft извличането на съдържание от интернет за обучение на AI е съвсем нормално

Павлин Луканов Последна промяна на 03 July 2024 в 18:09 1260 0

Снимка CNBC

Мустафа Сюлейман, Microsoft

Южна Корея с амбициозен план в сферата за AI чипове

30/06/2026

Магнитните системи: свобода в осветлението от Polaris Lighting

Свидетели сме на все повече противоречия относно практиките на компаниите разработващи изкуствен интелект по отношение на данните, които се използват за обучение на големите езикови модели. В голяма част от случаите тези компании не се съобразяват с нежеланието на други организации за изключване на тяхното съдържание от този процес, а освен това се прилагат практики за обхождане на интернет пространството и извличане на необходимата информация.

Сега ръководителят на подразделението за изкуствен интелект в Microsoft, Мустафа Сюлейман, разкрива в интервю пред CNBC, меко казано противоречивите си възгледи в тази насока. На въпроса дали компаниите в сферата на AI на практика крадат интелектуалните права, той отговаря, че по отношение на съдържанието, което вече е в онлайн пространството има социален договор, който е за справедливо използване. Той добавя, че всеки може да копира, пресъздава и създава ново съдържание на база на това съдържание.

Microsoft е обект на множество съдебни дела, в които компанията, а и OpenAI, краде защитено срещу копиране онлайн съдържание с цел да обучи генеративните си модели с изкуствен интелект. Така изобщо не е изненадваща позицията на Сюлейман, имайки предвид атаките срещу Microsoft.

Заслужава си да се отбележи, че това представлява и доста широко тълкуване на идеята за справедливо използване, като според Сюлейман тя е част от социалния договор. Това обаче не е постановено със закон, но този факт не пречи да бъде в основата на оправданията на компаниите в сферата с изкуствен интелект. В повечето случаи обаче това не се заявява толкова открито, както сега.

Говорейки за противоречивите му възгледи, той продължава с доста показателно изказване, в което споделя, че хората са човешки организъм, който е преди всичко двигател за производство на знания и интелектуална продукция. Съвсем наскоро стана ясно, че редица компании не уважават системата за изключения от извличане на данни в robots.txt. Според него това е сива зона, макар там да се посочва, че не се позволява практиката на даден сайт.

Нормално е за големите корпорации да защитават практиките си, но все пак това не означава, че е правилната политика. В конкретния случай Microsoft иска да оправдае използването на всички данни от онлайн пространството за обучение на решения с изкуствен интелект. Това обаче не звучи като справедливо за хората, които създават съдържание и не искат то да се използва за подобни цели.