Ant Group и Tsinghua пускат AReaL v1.0 за обучение за подсилване на агент с едно щракване

Ant Group и университетът Tsinghua имат AReaL v1.0 с отворен код, рамка за обучение за укрепване (RL), предназначена да позволи интеграция с едно щракване за AI агенти.

Стабилната версия позволява на разработчиците да свързват различни рамки на агенти към системи за обучение на RL, без да променят съществуващия код, като ефективно правят обучение за подсилване, базирано на агенти “включи и пусни.”

AReaL е описан като първата напълно асинхронна система за обучение на RL с голям модел, която разделя процесите на извод и обучение. Чрез въвеждането на слой Proxy Worker между агента и системата за обучение, разработчиците трябва само да променят една крайна точка на заявка, за да активират обучението.

Тъй като големите езикови модели се развиват към архитектури, фокусирани върху разсъждението, обучението с подсилване стана критично за подобряване на логическото разсъждение. Въпреки това, повечето настоящи RL системи разчитат на синхронни механизми, оставяйки значителни GPU ресурси бездействащи. AReaL елиминира времето за изчакване на синхронизация чрез пълно разделяне на генерирането и обучението.

Експерименталните резултати показват, че при една и съща GPU конфигурация AReaL може да увеличи скоростта на обучение до 2,77 пъти в сравнение с водещите синхронни системи, като същевременно подобрява производителността при решаване на проблеми при определени задачи.

Изданието също така въвежда Archon, естествен двигател за обучение, изграден на PyTorch с пълен 5D паралелизъм, поддържащ разпределено обучение за модели Mixture-of-Experts със сто милиарда параметри. Кодът и документацията вече са налични в общността с отворен код inclusionAI.

Източник: CLS AIdaily

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Ant Group и Tsinghua пускат AReaL v1.0 за обучение за подсилване на агент с едно щракване

Byadmin

Like this:

By admin

Related Post

Нова китайска батерия предлага нова надежда за съхранение на водород

Интеграция на Qwen-Taobao за стимулиране на пазаруването 618

Континенталният фондов пазар достига 11-годишен връх

You missed

Нова китайска батерия предлага нова надежда за съхранение на водород

Интеграция на Qwen-Taobao за стимулиране на пазаруването 618

Континенталният фондов пазар достига 11-годишен връх

Китай започва репресии срещу незаконните практики в сектора на TCM