

Ant Group и университетът Tsinghua имат AReaL v1.0 с отворен код, рамка за обучение за укрепване (RL), предназначена да позволи интеграция с едно щракване за AI агенти.
Стабилната версия позволява на разработчиците да свързват различни рамки на агенти към системи за обучение на RL, без да променят съществуващия код, като ефективно правят обучение за подсилване, базирано на агенти “включи и пусни.”
AReaL е описан като първата напълно асинхронна система за обучение на RL с голям модел, която разделя процесите на извод и обучение. Чрез въвеждането на слой Proxy Worker между агента и системата за обучение, разработчиците трябва само да променят една крайна точка на заявка, за да активират обучението.
Тъй като големите езикови модели се развиват към архитектури, фокусирани върху разсъждението, обучението с подсилване стана критично за подобряване на логическото разсъждение. Въпреки това, повечето настоящи RL системи разчитат на синхронни механизми, оставяйки значителни GPU ресурси бездействащи. AReaL елиминира времето за изчакване на синхронизация чрез пълно разделяне на генерирането и обучението.
Експерименталните резултати показват, че при една и съща GPU конфигурация AReaL може да увеличи скоростта на обучение до 2,77 пъти в сравнение с водещите синхронни системи, като същевременно подобрява производителността при решаване на проблеми при определени задачи.
Изданието също така въвежда Archon, естествен двигател за обучение, изграден на PyTorch с пълен 5D паралелизъм, поддържащ разпределено обучение за модели Mixture-of-Experts със сто милиарда параметри. Кодът и документацията вече са налични в общността с отворен код inclusionAI.
Източник: CLS AIdaily
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта