Трансформеры без нормализации: Новый взгляд на привычное!

О, ребята, у меня для вас настоящая находка! Работа под названием "Transformers without Normalization" от гениальных умов — Jiachen Zhu, Xinlei Chen, Kaiming He, Yann LeCun и Zhuang Liu. Уверен, вы не могли не слышать о них, но если нет, то обязательно обратите внимание на их интересный сайт здесь и на код на GitHub.

Теперь, давайте углубимся в саму суть. Представьте себе: вы можете заменить привычные слои нормализации в трансформерах на поэлементный гиперболический тангенс под названием Dynamic Tanh (DyT). Его формула выглядит как DyT(x) = tanh(αx), где параметр α — это обучаемый элемент. И знаете что? Оказывается, результаты остаются на том же высоком уровне, без необходимости в тюнинге гиперпараметров! Это не просто небольшое улучшение — это целая революция в том, как мы мыслим о нормализации в нейросетях!

Вызов традициям

Когда в 2015 году появилась Batch Normalization (BN), она стала настоящим прорывом. Эффект, которого ожидали, оказался даже более мощным, чем предполагали разработчики! С тех пор на арене появились и другие методы нормализации: Layer Normalization (LN) и RMSNorm, которые стали космически популярными в трансформерах. Если говорить откровенно, честно говоря, они все работают по-разному, но в итоге дают хорошие результаты: повышают качество, ускоряют сходимость и облегчают обучение глубоких моделей.

Теперь же появляются авторы с их подходом DyT, мимоходом заявляя: "Смотрите, мы можем обойтись вообще без нормализации!" Как по мне, это смелый и провокационный шаг. Хотя до этого уже были попытки интегрировать нормализацию в функции активации — например, SELU (а вы не забыли о нем?). Но SELU, к сожалению, остался на обочине, пока динамичные активации продолжают занимать центральную сцену.

Упрощение через DyT

Возвращаясь к DyT, главный плюс в том, что вам не нужно вычислять средние и дисперсии по всему слою, и при этом нет необходимости хранить дополнительные параметры для инференса, как это было с BN. Авторы провели анализ transformaеров с LN, и, в ходе экспериментов, выяснили, что поведение моделей можно представить как S-образную кривую для глубоких слоев и линейную зависимость для более мелких. Увидев такую зависимость, они сделали вывод о том, что это может быть связано с масштабированным tanh — и в результате родился DyT!

Полная формула для DyT выглядит так: DyT(x) = γ * tanh(αx) + β, где α, γ и β — обучаемые параметры. Причём по своей сути это уже больше похоже на функцию активации, но в своей работе они только и проверяли, как DyT заменяет LN.

В своих экспериментах авторы протестировали DyT на множестве разнообразных задач и моделей, включая ViT, MAE, DINO, DiT, различные версии LLaMA и даже wav2vec 2.0. И, угадайте что? Результаты остались на уровне, возможно, чуть хуже в микро-метриках, но в целом распределение качества не изменилось!

Переосмысляя подход

А как же с производительностью? Здесь также радует! DyT показывают почти двукратное увеличение скорости на уровне слоя, хоть на уровне всей модели улучшения более скромные. Это действительно значительный аргумент для всех тех разработчиков, кто хочет оптимизировать свои сетевые архитектуры.

Интересно, что авторы провели множество абляций: убирали tanh, заменяли на identity и еще несколько других функций. Как видите, tanh завоевал чемпионский титул! Отсутствие обучаемого α также сказалось на результатах, что подтверждает важность этого параметра.

Как ведет себя α в процессе обучения? Данные показывают, что оно следует за 1/std от активаций. После обучения обнаруживается сильная корреляция с 1/std входных активаций — особенно в глубоких слоях с более



Обсуждение (0)

Войдите, чтобы оставить комментарий

Пока нет комментариев!



Вам также может понравиться

Ну что, друзья, готовьтесь к погружению в мир, где искусственный интеллект станет основным игроком на ИТ-рынке России в 2025 году! На конференции Data Fusion мы обнаружим, как ИИ изменяет правила игры: от автоматизации процессов до развития устойчивых решений для бизнеса. Разберемся в трендах, которые уже сегодня задают тон нашей т... Читать далее
В мире глубокого обучения есть вещи, которые становятся Пушкиными среди алгоритмов. Один из таких шедевров — алгоритм Adam, как завзятый оптимизатор, и механизм внимания на базе RNN, который преобразует скучные последовательности в увлекательные истории. Вместе они творят чудеса, позволяя моделям сосредоточиться на важном, как хипс... Читать далее