Koder
AI

VoxText

AI-сервис расшифровки аудио и видео в текст с таймкодами.

// Задача

Запустить продукт в продакшен с ограничениями реального мира

Сделать сервис, который превращает аудио и видео в готовый текст с таймкодами — загрузкой файла или просто ссылкой на YouTube/Vimeo, без ручной расшифровки.

Точность распознавания и расстановка пунктуации должны быть на уровне ручной расшифровки, при этом обрабатывать десятки языков и часовые записи за минуты, а не часы.

Параметры проекта
Стек
Next.js · React · TypeScript · Whisper
Сроки
4 дня до запуска
Команда
1 человек: fullstack
Поддержка
по запросу
// Что сделали

Решение

// Результат

В цифрах после запуска в продакшен

90+
Языков
С автоопределением
минуты
Час записи
Расшифровка вместо часов
5
Форматов
TXT · DOCX · PDF · SRT · VTT
2 ГБ
Размер файла
Аудио и видео
// Дальше

Следующий кейс

PG
Инфраструктура

PG Practikum

Интерактивный учебный стенд по физической репликации PostgreSQL