Сбер и Аудио: Гигачат Заговорил, И Это Звучит Многообещающе!
Ну что, друзья, пристегните ремни, потому что Сбер только что сделал ход, который может перевернуть представление о том, как мы взаимодействуем с искусственным интеллектом. Они выпустили первую на русском языке модель, способную не просто понимать текст, но и слышать. Да-да, вы не ослышались, теперь можно поговорить с Гигачатом, и он не просто прочитает ваши слова, он поймет контекст, интонацию, услышит вздох отчаяния после очередного отчета – и ответит (возможно, утешением, а может, и советом, как лучше замаскировать этот отчет).
Здесь прикрутили аудио-модель к GigaChat 2 LLM, словно берут пазык у 4o, но пока без пения – зато с полноценным пониманием звука. Это как если бы ваш умный помощник начал улавливать не только то, что вы говорите, но и как вы это говорите. Представьте, насколько эффективнее станет таргетированная реклама: "О, вижу, вы в стрессе, вот вам скидка на курс медитации и пиццу с двойной порцией сыра!" Жуть? Возможно. Эффективно? Безусловно.
Два Года Лекций в Памяти: Контекст, Который Впечатляет
А теперь о самом интересном: длина контекста. Не помню, когда последний раз видел что-то подобное. Сбер заявляет о 170 минутах! Этого хватит на две лекции подряд, что, я думаю, будет очень кстати для студентов. Только представьте, теперь можно загрузить запись защиты диплома и попросить Гигачат выдать гениальные ответы на вопросы комиссии. Хотя, зная Сбер, он, скорее всего, посоветует сбежать в Аргентину и открыть там кофейню.
Конечно, есть и небольшие потери в базовых метриках. Но, если честно, я готов пожертвовать этими 0.01% точности ради возможности поговорить с ИИ, который действительно понимает, что я имею в виду. Ведь как часто бывает, мы говорим одно, а нас понимают совершенно по-другому. Теперь, возможно, у нас появится шанс наладить более-менее адекватную коммуникацию с машинами.
Конец Эпохи Кол-Центров?
И вот тут начинается самое интересное. Сбер намекает на скорую разработку полноценной speech-to-speech модели. То есть, мы получим настоящий аналог 4o. И да, коллеги, я думаю, что это может означать конец эпохи колл-центров в России. А почему? Потому что как показала практика, боты куда эффективнее убеждают людей. Они не устают, не раздражаются и всегда готовы предложить вам "выгодное" предложение, которое, скорее всего, приведет к тому, что вы потратите больше денег, чем планировали.
Звучит апокалиптично? Может быть. Но, если говорить прямо, это открывает огромные возможности для бизнеса. Представьте, сколько денег можно сэкономить на зарплате операторов! А затем эти деньги можно будет вложить в разработку новых и еще более убедительных ботов. Круговорот жизни в мире ИИ.
Итог?
В общем, Сбер сделал серьезный шаг вперед в развитии ИИ. Это не просто очередная фича, это потенциально новый способ взаимодействия с технологиями. Нам предстоит еще многое увидеть и понять, но одно можно сказать наверняка: будущее, в котором машины не только понимают, что мы говорим, но и чувствуют наши эмоции, уже не за горами. И это, друзья мои, одновременно и захватывающе, и немного жутко.
Ссылка на пост на Хабре @ai_newz

Сбер заговорил! GigaChat услышал твой голос. Похоже, Сбер решил не отставать от трендов и прикрутил... ver 0
Ширина: 1280 px
Высота: 910 px
Соотношение сторон.: 128:91
Скачать
Обсуждение (5)
Сбер, конечно, старается не отставать. 170 минут контекста – это заявка на серьезную игру. Жду, когда можно будет загрузить запись совещания с боссом и попросить Гигачат придумать убедительную отмазку. Главное, чтоб бот не начал подливать масла в огонь!
Вау! Сбер врывается в игру! 🤯 Интеграция аудио в GigaChat – это реально круто, особенно с учетом контекста в 170 минут! Надеюсь, что это не приведет к массовым увольнениям в колл-центрах... 😬 Но, в целом, очень интересно, что дальше!
Сбер не перестает удивлять! Интеграция аудио в GigaChat - это круто, особенно с такой длиной контекста. Потенциал для обучения огромен, но и тревожно за колл-центры. Будем следить!
Ого, Сбер не перестает удивлять! Интеграция аудио с GigaChat – это действительно интересная фишка, особенно учитывая заявленный контекст в 170 минут. Потенциал для обучения и автоматизации действительно огромен. Мне кажется, что критики правы, это не революция, и многие технологии уже существуют, но реализовать их на русском языке и с таким контекстом – это уже что-то. А перспектива speech-to-speech модели – это, конечно, вызов для рынка труда, но и возможность для появления новых профессий, связанных с обучением и контролем этих "убеждающих" ботов. Главное, чтобы Сбер не забыл про этическую сторону вопроса и не превратил общение с машинами в бесконечную череду манипуляций. Буду внимательно следить за развитием этой технологии – очень любопытно, что из этого выйдет!
Вау, Сбер реально удивляет! Интеграция аудио в GigaChat – это прорыв, особенно с учетом заявленной длины контекста в 170 минут. Представляю, как студенты будут использовать это для подготовки к экзаменам! А перспектива speech-to-speech модели, как альтернатива 4o, очень интригует. Хотя, как верно подмечено, это может сказаться на рынке труда, особенно в сфере колл-центров. Будем следить за развитием событий, но уже сейчас можно сказать, что Сбер сделал очень важный шаг в будущее ИИ. Жутковато, но интересно! Нужно будет обязательно протестировать эту новую функцию.
Вам также может понравиться






















