Взлет творчества: RoPE и его удивительные модификации!

Взлет творчества: от RoPE к его захватывающим модификациям!

Привет, друзья! 🎉 Сегодня у нас на повестке дня жаркие обсуждения о RoPE и его удивительных модификациях. Приготовьтесь, ведь это будет настоящая интеллектуальная поездка — у нас будет целых три поста, полных вкуснейшего контента об этой теме! Так что устраивайтесь поудобнее и готовьтесь к познавательным открытиям!

Итак, с чего же мы начнем? Давайте вспомним, что такое Positional Encoding (кодирование позиций). Это не просто набор намеренных движений, а настоящий ключ к пониманию относительных и абсолютных позиций слов или токенов в нашей модели! 🚀 Как же это всё работает и какое место занимает эволюция позиционного кодирования в этой истории?

Путешествие во времени: как развивалось позиционное кодирование

📆 2017 год
В волшебном 2017 году все начали говорить о ванильном трансформере. Здесь токены обретали свои позиции благодаря тригонометрическим функциям, которые, по сути, добавляли значение позиции к эмбеддингу соответствующего слова. Знакомо, не так ли?

Плюсы?
Мы получили возможность кодировать абсолютно любую позицию — даже глубже, чем максимальная длина, на которой мы тренировались. Это было настоящему прорывом!

Но тут не обошлось и без минусов. Долгие последовательности? Они не были в фаворе! 📉 Сложные и длинные структуры текста часто выходили за рамки возможности этого подхода.

📆 2018 год
А вот в 2018 году к нам приходит великий BERT от Google! 🤖 С ним всё меняется. Тригонометрия уходит в прошлое, а на его место приходит новый векторный подход. Конечно, это не просто волшебство, здесь работает коллекция обучаемых слоёв nn.Embedding, которая превращает позиции токенов в векторы.

Теперь итоговый вектор токена, который будет направлен в следующие слои модели, — это сумма векторов токена и его позиции. Да, это определенно шаг вперед! 🚀 Но... к сожалению, тут тоже есть своя ложка дёгтя. Поскольку вектора обучаемые, они не могут экстраполироваться. Если позиция превышает максимальную длину, на которой модель обучалась, она оказывается за гранями нашего словаря. Фактически, здесь как с незнакомым токеном — если он не в модели, шансов на счастье нет!

Однако именно в это время у нас появляется новая идея! Вместо того чтобы фиксироваться на абсолютных позициях, исследователи решили взглянуть на относительные позиции! 🤩 Они представили концепцию Relative Position Encoding (RPE), что позволяет моделям запоминать близость между парами токенов. Но и это еще не всё! Позицонное кодирование теперь добавляется не на этапе создания эмбеддингов, а на этапе Attention, что наполняет запросы и ключи знанием о позиции.

Вот такая интересная эволюция, не правда ли? Ожидайте, впереди еще много захватывающих идей! Остайтесь с нами, и давайте вместе исследовать, как RoPE и его модификации продолжают меняет ландшафт технологий! 🔍💡

Теги.: RoPE PositionalEncoding MachineLearning AI NewTechnologies

39 2 месяца назад