Microsoft представляет мощное трио искусственного интеллекта: революционизирует транскрипцию, аудио и генерацию изображений

Новые модели искусственного интеллекта Microsoft призваны бросить вызов лидерам отрасли, предоставляя расширенные возможности преобразования речи в текст, синтеза звука и создания изображений.
Microsoft представила три новые основополагающие модели искусственного интеллекта, которые обещают встряхнуть отрасль и бросить вызов доминированию конкурирующих технологических гигантов в сфере искусственного интеллекта. Эти модели, разработанные подразделением Microsoft AI (MAI) технологического гиганта, могут транскрибировать голос в текст, генерировать аудио из текста и создавать изображения из текстовых описаний.
Выпуск этих моделей состоялся всего через шесть месяцев после создания MAI, что подчеркивает стремление Microsoft быстро развивать свои возможности искусственного интеллекта и догонять таких лидеров отрасли, как OpenAI и Google. Эти основополагающие модели служат строительными блоками для широкого спектра приложений на базе искусственного интеллекта: от виртуальных помощников до инструментов для создания контента.
Одной из выдающихся особенностей новых моделей Microsoft является их способность решать широкий спектр задач с высокой степенью точности и универсальности. Например, модель преобразования речи в текст может расшифровывать аудио на нескольких языках с впечатляющей точностью, что делает ее ценным инструментом для предприятий, поставщиков медицинских услуг и других отраслей, которые полагаются на услуги точной транскрипции.
С другой стороны, модель генерации звука может преобразовывать текст в естественно звучащую речь, открывая новые возможности для приложений преобразования текста в речь, виртуальных помощников и даже создания аудиоконтента. Эта технология может революционизировать то, как мы взаимодействуем с цифровыми интерфейсами и потребляем аудиоинформацию.
Возможно, самой впечатляющей из этой тройки является модель генерации изображений, которая позволяет создавать визуальные эффекты на основе текстовых описаний. Эта возможность, часто называемая преобразованием текста в изображение или генеративным искусственным интеллектом, была важной областью внимания как технологических гигантов, так и стартапов, причем лидировали DALL-E от OpenAI и Imagen от Google. Выход Microsoft на эту сферу обещает усилить конкуренцию и способствовать дальнейшему развитию в этой быстро развивающейся области.
Выпуск этих основополагающих моделей является четким свидетельством стремления Microsoft стать доминирующим игроком на рынке искусственного интеллекта. Используя свои обширные ресурсы, опыт и обширную базу пользователей, компания имеет хорошие возможности для интеграции этих моделей в широкий спектр своих продуктов и услуг, от Office365 и Azure до потребительских платформ, таких как Windows и Xbox.
Поскольку гонка в области ИИ продолжает накаляться, последние шаги Microsoft демонстрируют ее решимость бросить вызов существующему положению дел в отрасли и занять значительную долю прибыльного и быстро растущего рынка ИИ. Благодаря этим новым основополагающим моделям компания готова совершить революцию в различных отраслях и по-новому взглянуть на то, как мы взаимодействуем с технологиями в ближайшие годы.
Источник: TechCrunch


