Российский разработчик голосовой биометрии, «ЦРТ-инновации», 7 декабря получил от «Национальной технологической инициативы» (НТИ) грант на 270 млн руб. на создание технологии анализа звуковой среды с помощью искусственного интеллекта (ИИ). Об этом сообщили представители компании и программы.
«ЦРТ-инновации» – 100%-ная «дочка» компании «Центр речевых технологий» (ЦРТ, подконтролен Газпромбанку), которая специализируется на распознавании лиц и речи. Современные системы умеют распознавать отдельно взятую речь, а вот анализировать сложную звуковую картину и отделять речь от наложенных шумов пока что нет, объясняет гендиректор ЦРТ Дмитрий Дырмовский.
Новая технология (по имени «Нейроухо») позволит устройствам слышать, что происходит вокруг, а при наличии нехарактерных шумов система будет рассылать уведомления или управлять видеокамерами. Еще она должна научиться распознавать пол и возраст, обещают «ЦРТ-инновации». Интерпретировать голос в текст умеют многие, но вот вычислять параметры говорящего (пол, возраст) – нет, подтверждает партнер KPMG Николай Легкодимов.
Управляющий директор Skolkovo Ventures Владимир Сакович указывает на высокую конкуренцию в весьма модном сегменте распознавания речи: только в России в этом направлении работают до 10 игроков, знает он. Практически все крупные компании, исследующие ИИ (среди них Google, IBM, Microsoft, Amazon, Nuance), занимаются подобными разработками, согласен представитель ЦРТ.
Но поддержка государства может помочь таким технологиям быстрее попасть в госсектор и те отрасли, где они будут востребованы, заключает Сакович. Применение технологии может найтись в сфере безопасных городов, робототехнике, умных домах, а работников шумных производств она должна вовремя предупреждать об опасностях, говорится в сообщении «ЦРТ-инноваций».
Весь проект стоит 390 млн руб., но НТИ дает деньги лишь при условии 30%-ного частного софинансирования, и 120 млн руб. вложит сам ЦРТ. По планам компании проект должен окупиться к 2022 г., а к 2024 г. она надеется получать выручку в 2 млрд руб.
Денег НТИ хватит на прототип, но промышленная реализация потребует дополнительных инвестиций, считает руководитель отдела разработки голосовых технологий и продуктов «Яндекса» Денис Филиппов. Он отмечает сложность в сборе данных, необходимых для обучения ИИ: для распознавания по характерному звуку нужно сотни часов записывать каждый объект в разных шумовых окружениях и на различных расстояниях от микрофона. Наложение звуков представляет отдельную проблему, уверен он.