Microsoft има нов унифициран модел за компютърно зрение – Florence-2

Павлин Луканов Последна промяна на 21 юни 2024 в 20:31 1420 0

Снимка Copilot/Dall E AI Image

Скоро може да няма нови мощни AI модели с отворен код

14/07/2026

Apple подготвя още по-голям скок на мощта на процесорите си

Microsoft пусна нов основен модел за компютърно зрение, Florence-2. Той е наличен чрез MIT лиценз и може да поема разнообразие от зрителни и зрително-езикови задачи, използвайки унифицирана заявка чрез запитване. Моделът идва в два размера, 232 и 771 млн. параметъра, като вече се справя отлично със задачи като засичане на обекти, създаване на субтитри и сегментация. Той постига съизмерими или по-добри резултати от много от наличните в момента подобни модели.

Разбира се представянето в реални условия все още не е тествано, но се очаква те да предоставят единен подход на корпорациите за справяне с различни типове зрителни приложения. Така ще се спестят инвестиции в различни модели, които имат по-тясна насоченост и не могат да поемат други задачи.

Днешните големи езикови модели (LLM) са в основата на оперативната дейност на корпорациите. Един единствен модел може да предоставя услуги като резюмиране, писане на маркетингови материали и дори да отговаря за обслужване на потребителите. Нивата на адаптиране сред всичките задачи определено е впечатляващо, като това кара учените да се запитат дали подобно универсално решение е възможно при зрителните модели.

В ядрото си зрителните задачи са по-сложни от текстово базираната естествена езикова обработка (NLP). Те изискват всеобхватни способности за възприемане. По същество, за да се постигне универсално представяне на разнообразни зрителни задачи, моделът трябва да може да разбира пространствени данни в различни мащаби - от широки понятия на ниво изображение като местоположение на обект, до фини детайли на пиксела, както и семантични детайли като надписи на високо ниво и подробни описания.

Когато Microsoft са се опитали да решат тези проблеми, те са открили две основни пречки. Недостиг на цялостно анотирани набори от визуални данни и липса на унифицирана рамка за предварително обучение с единна мрежова архитектура, която да интегрира способността за разбиране на пространствената йерархия и семантичната гранулярност.

За да се справи с тези проблеми, компанията първо използва специализирани модели за генериране на набор от визуални данни, наречен FLD-5B. Той включва общо 5.4 млрд. анотации за 126 мл.а изображения, които обхващат детайли от описания на високо ниво до специфични региони и обекти. След това, използвайки тези данни, компанията обучава Florence-2, като използва архитектура от последователност към последователност (вид невронна мрежа), интегрираща енкодер на изображения и мултимодален енкодер-декодер. Това дава възможност на модела да се справя с различни зрителни задачи, без да се налагат специфични за задачата архитектурни модификации.

При запитване чрез въвеждане на текст и изображения Florence-2 се справя с разнообразие от задачи. Това включва засичане на обекти, добавяне на субтитри и отговори на въпроси. Ще е интересно да се види как разработчиците ще използват новото решение на Microsoft.