Google е сред малкото компании, които разработват собствени процесори за своята облачна AI инфраструктура. Това са персонализирани Tensor процесорни единици (TPU), а сега компанията преминава към версия от осмо поколение.
Новите TPU се предлагат в два варианта. Google прокарва идеята, че ерата на агентите е фундаментално различна от AI системите, които са съществували преди това, което налага нов подход към хардуера. Затова инженерите са разработили TPU8t (за обучение) и TPU 8i (за извличане на заключения).
Преди моделите за изкуствен интелект да се превърнат в нещо, което можете да използвате за анализ на данни или създаване на забавни меми, те трябва да бъдат обучени. TPU 8t е проектиран специално за тази част от жизнения цикъл на изкуствения интелект, за да намали времето за обучение на авангардни модели за изкуствен интелект от месеци до седмици.
Актуализираните сървърни клъстери Tensor 8t сега съдържат 9600 чипа с два петабайта споделена памет с висока пропускателна способност. Google твърди, че TPU 8t може дори да се мащабира линейно, с до един милион чипа в един логически клъстер.
Така че новите чипове позволяват по-бързо обучение, но Google също така твърди, че получавате по-полезна изчислителна мощност за всеки волт, който подавате към TPU 8t. С по-добро управление на нередовния достъп до паметта, автоматично справяне с хардуерни грешки и телеметрия в реално време за всички свързани чипове, TPU 8t прекарва повече време в активно напредване на обучението на модела.
Когато обучението приключи, AI моделите работят в режим на извличане на заключения, за да генерират токени – това е процесът, който се случва зад кулисите, когато кажете на модела да направи нещо. Това не изисква толкова голяма мощност, така че използването на един и същ хардуер за двете части от AI жизнения цикъл е неефективно. Ето защо извличането на заключения е в компетенцията на TPU 8i, който е проектиран да бъде по-ефективен при изпълнение на множество специализирани агенти, с по-малко време за изчакване. Чиповете TPU 8i също работят в по-големи модули от 1152 чипа, в сравнение с едва 256 за кластерите за извличане на заключения от последното поколение Ironwood. Това се равнява на 11,6 EFlops на модул, което е много по-малко от модулите TPU 8t.
Google е утроила количеството SRAM на чипа за всеки TPU 8i до 384 MB. Това позволява на новите чипове на компанията да поддържат по-голям кеш за ключови стойности на чипа, ускорявайки моделите с по-дълги контекстни прозорци. AI ускорителите от осмо поколение са също първите от Google, които разчитат изцяло на персонализирания хост процесор Axion ARM на Google, с по един процесор на всеки два TPU. В Ironwood всеки x86 процесор обслужваше четири TPU чипа. Google твърди, че този „пълнофункционален“ подход, базиран на ARM, позволява много по-голяма ефективност.
Генеративните AI системи консумират много енергия, което често се посочва като една от основните причини да не се използват. TPU от осмо поколение не са точно енергоспестяващи, но Google твърди, че чиповете предлагат двойно по-висока производителност на ват в сравнение с Ironwood. Google е адаптирала своята система за течно охлаждане от четвърто поколение към новите чипове, като използва активно контролирани клапани за регулиране на водния поток в зависимост от натоварването.






Коментари
Моля, регистрирайте се от TУК!
Ако вече имате регистрация, натиснете ТУК!
Няма коментари към тази новина !
Последни коментари