Skip to content

An open-source library for recognition of speech commands in the user dictionary using audiovisual data of the speaker

License

Notifications You must be signed in to change notification settings

DmitryRyumin/OpenAV

Repository files navigation

PyPI PyPI - Python Version PyPI - Implementation GitHub repo size PyPI - Status PyPI - License GitHub top language Documentation Status

Описание


OpenAV - библиотека с открытым исходным кодом, предназначена для решения задач автоматического распознавания речевых команд на основе интеллектуального анализа аудиовизуальных данных.


Содержание

Перечень возможных направлений прикладного использования библиотеки

  1. Автомобильная промышленность
    • Системы помощи водителю: Голосовое управление навигацией, климат-контролем, мультимедийными системами.
    • Каршеринг и таксопарки: Безопасное управление транспортным средством и взаимодействие с пассажирами в шумных условиях.
    • Умные автомобили: Распознавание жестов и команд для управления функциями автомобиля.
  2. Авиация
    • Кабины пилотов: Голосовое управление бортовыми системами, особенно в условиях высокого уровня шума.
    • Обучение и симуляторы: Реалистичное взаимодействие с системами управления и обучающими симуляторами.
  3. Производственные предприятия
    • Управление оборудованием: Голосовое управление станками и роботами на производственных линиях.
    • Безопасность и контроль: Мониторинг и управление безопасностью в условиях шума.
  4. Логистика и складское хозяйство
    • Управление инвентарем: Голосовое управление системами управления складом.
    • Распознавание команд операторов: Автоматизация процессов загрузки и разгрузки товаров.
  5. Медицинские учреждения
    • Оборудование: Голосовое управление медицинскими устройствами и инструментами.
    • Запись и управление данными: Голосовое ведение медицинских записей и управление информационными системами.
  6. Охрана и безопасность
    • Системы видеонаблюдения: Анализ видеопотоков и распознавание подозрительных действий или команд.
    • Управление доступом: Голосовое управление системами безопасности и контроля доступа.
  7. Умный дом
    • Умные устройства: Голосовое управление бытовыми приборами, системами освещения, климат-контролем.
    • Безопасность дома: Распознавание голосовых команд для управления системами безопасности.
  8. Образование и тренинги
    • Обучающие программы: Голосовое управление обучающими системами и симуляторами.
    • Дистанционное обучение: Интерактивное взаимодействие с учебными материалами и системами.
  9. Развлечения и медиа
    • Мультимедийные системы: Голосовое управление телевизорами, музыкальными системами, игровыми консолями.
    • Интерактивные развлечения: Распознавание голосовых и жестовых команд в видеоиграх и VR/AR приложениях.
  10. Гостиничный и ресторанный бизнес
    • Обслуживание клиентов: Голосовое управление системами бронирования, обслуживания номеров, заказов в ресторанах.
    • Интерактивные системы: Голосовое взаимодействие с информационными киосками и справочными системами.
  11. Правоохранительные органы и аварийные службы
    • Оперативное управление: Голосовое управление системами связи и управления в условиях чрезвычайных ситуаций.
    • Мониторинг и контроль: Распознавание команд для автоматизации процессов управления и мониторинга.
  12. Публичные службы и правительственные учреждения
    • Обслуживание граждан: Голосовое взаимодействие с информационными системами и справочными службами.
    • Управление документами: Автоматизация голосового управления документооборотом и административными процессами.

Эти направления показывают, насколько универсальной и полезной может быть разработанная библиотека в самых разных областях. Она может существенно улучшить эффективность и удобство использования различных систем и устройств, особенно в условиях, требующих надежного распознавания речевых команд и устойчивости к шумам.

Рекомендуемые технические требования для использования библиотеки

  • Процессор: AMD Ryzen 5950x или лучше.
  • Видеокарта (GPU): NVIDIA GeForce 4090 RTX или лучше.
  • ОЗУ: 128GB или больше.
  • Накопитель: Твердотельный накопитель (SSD) или лучше (NVMe SSD M.2).
  • Операционная система: Windows 8 64-bit или новее / Linux Ubuntu 18.04 или новее.

Минимальные технические требования для использования библиотеки (при которых достигаются заявленные технические требования по точности и скорости обработки)

  • Процессор: 4-х ядерный процессор 2.8 ГГц или больше
  • Видеокарта (GPU): 16GB или больше.
  • ОЗУ: 32GB или больше.
  • Накопитель: Твердотельный накопитель (SSD).
  • Операционная система: Windows 8 64-bit или новее / Linux Ubuntu 18.04 или новее.

Пример обучения аудиовизуальных моделей распознавания речи на основе библиотеки OpenAV Пример тестирования библиотеки OpenAV