Neurbis 2022 | MIT & Meta позволява на оптимизаторите за градиентно съотношение да коригират автоматично своите хиперпараметри

Повечето обучения на дълбоки невронни мрежи разчитат до голяма степен на градиентно спускане, но изборът на оптималния размер на стъпката за оптимизатор е предизвикателство, защото включва досадна и податлива на грешки ръчна работа.

В отличен доклад на NeurIPS 2022 г Градуирана регресия: Крайният подобрителИзследователите на MIT CSAIL и Meta представят нова техника, която позволява на оптимизаторите за градиентно спускане като SGD и Adam да коригират автоматично хиперпараметрите. Методът не изисква ръчно диференциране и може да бъде итеративно подреден на няколко нива.

Екипът се справя с ограниченията на предишния регресионен оптимизатор, като активира автоматично диференциране (AD), което предлага три основни предимства:

  1. AD автоматично изчислява целочислените производни без допълнителни човешки усилия.
  2. Той естествено се обобщава безплатно за други хиперпараметри (като коефициента на импулса).
  3. AD може да се прилага не само за оптимизиране на хиперпараметри, но и за оптимизиране на хиперпараметри, хиперпараметри и т.н.

За да позволи автоматично изчисляване на хиперпараметрични градиенти, екипът първо “отделя” теглата от изчислителната графика преди следващата итерация на алгоритъма за спускане на градиента, който трансформира теглата в графични листове, като премахва всички входящи ръбове. Този подход предотвратява нарастването на аритметичната графика с всяка стъпка – което води до време на квадрат и упорито обучение.

Екипът също така позволява обратно разпространение за депозиране на градиенти по отношение както на теглата, така и на размера на стъпката, като не отделя размера на стъпката от графиката, а вместо това разделя родителите. Това води до напълно автоматизиран алгоритъм за хипероптимизация.

За да активират автоматично изчислителни градиенти в AD, изследователите често подават самия HyperSGD като оптимизатор към оптимизатор от следващо ниво, HyperSGD. AD може да се приложи по този начин към хиперпараметри, хипер-хиперпараметри, хипер-хипер-хиперпараметри и т.н. Тъй като тези оптимизиращи кули растат, те стават по-малко чувствителни към първоначалния избор на хиперпараметри.

В своето експериментално проучване екипът приложи свръхоптимизиран SGD към популярни оптимизатори като Adam, AdaGrad и RMSProp. Резултатите показват, че използването на прекалено оптимизиран SGD подобрява базовата производителност със значителни маржове.

Тази работа представя ефективна техника, която позволява на оптимизаторите на градиентно съотношение автоматично да коригират своите хиперпараметри и могат да бъдат итеративно подредени на няколко нива. PyTorch реализация на AD алгоритъма е предоставена за листа в проекта github.

хартията Градуирана регресия: Крайният подобрител бягане OpenReview.


автор: Хеката е | редактор: Майкъл Саразин


Знаем, че не искате да пропуснете никакви новини или научни открития. Абонирайте се за нашия популярен бюлетин Глобално AI синхронизиране седмично За седмични актуализации на AI.