Многоядерное внимание: новейшие перспективы в трансформерах

Многоядерное внимание: Прорыв в архитектуре внимательных механизмов

В области машинного обучения и, в частности, в архитектуре трансформеров, внимание играет ключевую роль в обработке информации. Так, обыденная система внимания воспринимает значимость токенов через один вектор значений запроса (query) и один вектор ключа (key). Этот подход, известный как "single token attention", подвержен ограничениям, которые внедряют узкие места в процессе выявления значимых элементов информации. Исходя из этого, методика Multi-Token Attention (MTA) предлагает эволюцию, позволяя учитывать несколько векторов запроса и ключа одновременно, что ведет к более гибкому и мощному механизму обработки информации.

Сейчас кратко напомню, как работает стандартный механизм внимания. Он определяет веса внимания с помощью формулы softmax(QK/sqrt(d)), где Q — это вектор запроса, K — вектор ключа, а d — размерность вектора. С каждым токеном ассоциируются эмбеддинги, которые проецируются в три отдельных вектора: Q, K и V. На основе скалярного произведения векторов Q и K разных токенов машина определяет их "похожесть" или "значимость". После применения softmax к результату, генерируются веса внимания A, которые многократно переосмысляют векторы V, создавая новые эмбеддинги.

Когда мы говорим о стандартных механизмах внимания, стоит помнить, что существует множество возможностей для их модификации. Например, есть разработки, касающиеся температуры в софтмаксе и отказа от нормализации в слоях внимания — с ними можно ознакомиться в нашем телеграм-канале. Работа, которую мы обсуждаем, относится к тем инновациям, которые заново осмысляют эти подходы.

Представьте, что нам нужно найти предложение, содержащее несколько ключевых элементов, таких как, к примеру, "Где Алиса видела кролика?" Для этой задачи мы определяем векторы запросов q_a для Алисы и q_r для кролика. Хотя стандартный механизм позволит "обнаружить" эти слова, он с трудом покажет, находятся ли они рядом в контексте, что можно было бы решить, увеличивая глубину модели. Однако, данный подход потребует большего вычислительного ресурса, что не всегда является оптимальным решением. И тут на помощь приходит модификация MTA, которая внедряет взаимодействие между картами внимания, позволяя более эффективно обрабатывать соседние позиции Q и K.

Так, на уровне конкретных модификаций в стандартном механизме внимания можно выделить три новых блока:

Свертка ключ-значение (key-query convolution): этот блок объединяет несколько ключей и запросов внутри одной головы внимания.
Свертка между головами (head mixing convolution): обеспечивает обмен информацией между головами внимания, подчеркивая важные элементы.
Групповая нормализация с масштабированием по глубине (group normalization with depth scaling): помогает улучшить поток градиентов, что критично для успешного обучения модели.

Свертка ключ-значение работает следующим образом: к логитам внимания перед применением софтмакса (QK/sqrt(d)) прерывается двумерная обучаемая свертка. При этом маскируются элементы, чтобы не просматривать информацию из будущих временных шагов. Эта операция, называемая pre-softmax convolution, применяется по умолчанию. В качестве альтернативы можно использовать post-softmax convolution, что приводит к аддитивным взаимодействиям между весами, в то время как их мультипликативные комбинации могут оказаться менее предпочтительными.

Сложность и инновационность MTA открывает новые горизонты для работы с текстом, позволяя не только усиливать взаимодействие между различными токенами, но и повышая качество анализа и генерации текстов. Однако, остаются открытыми некоторые вопросы, такие как нюансы мультипликативности весов внимания и другие тонкости конструкций. Это лишь подчеркивает важность дальнейших исследований и доработок в этой захватывающей области.

Теги.: МашинноеОбучение ИскусственныйИнтеллект Трансформеры ВнимательныеМеханизмы МногоядерноеВнимание

53 1 месяц назад