Кыргызстанский стартап представил технологию синтеза речи мирового уровня
Система способна понимать смысл, интонацию, паузы и эмоции, делая речь максимально естественно
Кыргызстанский стартап NineNineSix представил KaniTTS - новую модель синтеза речи (Text-to-Speech), которая по качеству и скорости работы сопоставима с решениями ведущих мировых компаний, таких как ElevenLabs, OpenAI, Google, Microsoft и Hume.Ai. Об этом Vesti.kg сообщили в Парке высоких технологий КР.
Отмечается, что модель KaniTTS способна создавать реалистичную, эмоционально выразительную речь в реальном времени и уже названа экспертами одной из самых передовых open-source разработок в мире в области генерации голоса.
Модель разработали кыргызстанцы Уланбек Абдуразаков, Денис Павлов и Нурсултан Бакашов. KaniTTS уже скачали более 15 000 раз на Hugging Face - это крупная платформа-каталог для ИИ-моделей и датасетов, где разработчики и компании выкладывают, находят и запускают модели в пару кликов.
KaniTTS - это не просто программа, которая превращает текст в голос. Это система, способная понимать смысл, интонацию, паузы и эмоции, делая речь максимально естественной. Главное достижение - скорость: модель генерирует 15 секунд звука всего за 1 секунду, что делает её пригодной для реального времени - от голосовых ассистентов и чат-ботов до игр, фильмов и образовательных приложений. И всё это работает на потребительском компьютере с NVIDIA RTX 5080, без каких-либо топовых серверных ускорителей.
Модель уже говорит на английском, немецком, корейском, арабском, китайском, испанском. Сейчас команда готовит к релизу кыргызский и японский языки.
Кроме того, KaniTTS полностью открыта, выложена в свободный доступ с открытым исходным кодом, чтобы разработчики и исследователи со всего мира могли использовать и дорабатывать её бесплатно.
«Мы хотели создать не просто технологию, а инструмент, который демократизирует доступ к голосовому AI. Теперь не только крупные корпорации, но и небольшие команды или исследователи смогут использовать технологию, которая раньше стоила миллионы», — говорят в NineNineSix.
В ближайшее время модель научат клонировать голоса. Voice cloning: технология, которая по короткому образцу голоса создаёт синтетическую копию тембра, интонаций и манеры речи, чтобы озвучивать любой текст «тем же» голосом.
«Запуск KaniTTS - знаковое событие для всей IT-экосистемы Кыргызстана. Это первая модель такого уровня, созданная в стране, и она уже получила внимание международных сообществ разработчиков. Появление подобных продуктов показывает, что Кыргызстан способен создавать технологии мирового класса - не только пользоваться, но и формировать будущее AI-индустрии. KaniTTS - доказательство того, что талант, амбиция и правильная среда могут рождать решения мирового уровня. Мы гордимся тем, что Парк Высоких Технологий стал площадкой, где такие идеи становятся реальностью», — отметили в ПВТ.
Где применяется разработка:
- Виртуальные ассистенты и чат-боты;
- Игровая индустрия и озвучка персонажей;
- Медиаконтент и подкасты;
- Образовательные платформы;
- Доступность и технологии для людей с нарушениями зрения.
Фото www