Модель теперь еще лучше понимает текстовые запросы и за несколько секунд создает реалистичные изображения, в том числе на тему культуры России.
Сбер создал новую версию генеративной модели для творчества — Kandinsky 3.0. Усовершенствованная нейросеть представлена на конференции Сбера по искусственному интеллекту и машинному обучению AI Journey, которая проходит с 22 по 24 ноября.
Новая версия в сравнении с предыдущими лучше понимает текстовый запрос пользователя. Нейросеть теперь умеет создавать еще более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами. Модель работает с запросами из широкого списка тем и способна реализовать любой полет фантазии.
Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например гжельской росписи. Кроме того, у новой модели усовершенствована функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна (inpainting и outpainting).
Kandinsky 3.0 создает изображения с высоким разрешением - 1024 х 1024 пикселей, - при этом может синтезировать картинки с выбранным соотношением сторон. Для обучения нейросети разработчики использовали обновленный датасет в размере 1,5 млрд пар «текст - изображение», содержащий данные, которые прошли многоэтапные процедуры фильтрации, что в итоге привело к заметному повышению качества генераций.
«Технологии искусственного интеллекта могут наделить человека супервозможностями, - отмечает Александр Ведяхин, первый заместитель Председателя Правления Сбербанка. - Kandinsky - один из инструментов, предоставляющих такие возможности. Это удобная, функциональная и бесплатная нейросеть Сбера для творчества. Мы постоянно работаем над ее усовершенствованием. Новая версия модели еще лучше понимает запросы от пользователей, научилась разбираться в тонкостях русской культуры и народного творчества. Пробуйте, творите, создавайте уникальные художественные произведения, которые могут стать подарком или украсят вашу коллекцию».
Пользователи также могут создавать видеоролики по текстовому описанию в режиме анимации. По одному запросу генерируется видео длиной в четыре секунды c выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640 x 640 пикселей. Синтез одной секунды видео в среднем занимает около 20 секунд. Для расширения возможностей базовой модели были реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию (image2image).
Kandinsky 3.0 понимает запросы более чем на 100 языках, а пользователи могут создавать изображения в неограниченном количестве стилей. Модель разработали и обучили исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.
Информационное агентство «Вологда Регион»
Учредитель: АУ ВО «Вологодский областной информационный центр»
Главный редактор: Шестакова Н.Н.
Электронная почта: info@vologdaregion.ru
Телефон: (8172) 72-03-58
© 2014-2026 Информационное агентство «Вологда Регион».
Все права
защищены.
Создание сайта
Лаборатория Новых Технологий
При полном или частичном копировании информации ссылка на ИА «Вологда Регион» обязательна. Свидетельство о регистрации средства массовой информации Эл № ФС77-59596 от 10 октября 2014 г. Выдано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций.