Руководство пользователя Omni Describer
Даём голос визуальному миру с помощью ИИ.
Всё началось с моей любви к кино. Когда я понял, сколько деталей в моих любимых сценах теряется без хорошего аудиоописания, мне пришла в голову идея: "А не мог бы ИИ облегчить нам эту задачу?". Я мечтал об инструменте, который не просто создавал бы описания, но и давал бы пользователю полный творческий контроль. После месяцев напряжённой работы, бесчисленных испытаний и преодоления многих технических препятствий я разработал Omni Describer как продукт этой мечты.
Содержание
Что означает название?
Слово "Omni" в названии происходит из латыни и означает "всё" или "целое". Я выбрал это название, потому что не хотел, чтобы инструмент служил только одной цели. Да, Omni Describer в первую очередь нацелен на то, чтобы сделать медиа доступными для незрячих и слабовидящих людей путём создания аудиоописаний. Однако его предназначение этим не ограничивается.
Это также инструмент для исследования. Кинокритик, студент, художник или любой, кто интересуется визуальными деталями, может использовать такие функции, как "Исследователь сцен" или "Узнать больше", чтобы погрузиться в слои видео так, как никогда раньше. Omni Describer — это окно, чтобы увидеть мир "глазами" ИИ и понять его по-другому. Короче говоря, это "описатель для всего, для всех".
Системные требования
Для лучшей производительности Omni Describer я рекомендую соответствовать следующим минимальным системным требованиям:
- Операционная система: Windows 10 или новее (64-разрядная).
- Оперативная память (RAM): не менее 4 ГБ.
- Накопитель: не менее 500 МБ свободного места на диске для приложения и временных файлов.
- Подключение к Интернету: Для подключения к сервисам ИИ (Google Gemini, OpenAI) и загрузки видео требуется активное интернет-соединение.
- Программа чтения с экрана: Для полной доступности рекомендуется программа чтения с экрана, например JAWS, NVDA или Экранный диктор Windows.
Начало работы: Настройка ваших API-ключей
Omni Describer использует облачные сервисы искусственного интеллекта для анализа и озвучивания описаний. Поэтому перед началом работы вам нужно ввести собственные API-ключи.
- Откройте настройки: Перейдите в меню Файл и выберите Настройки... (или нажмите Ctrl + ,).
- Вкладка "Настройки ИИ":
- API-ключ Gemini: Обязателен для анализа видео. Вставьте свой ключ в поле "API-ключ Gemini:". Вы можете получить бесплатный ключ API в Google AI Studio.
- API-ключ OpenAI (для TTS): Требуется для высококачественного синтеза речи (TTS). Вставьте свой ключ в это поле. Вы всё ещё можете использовать встроенные голоса Windows без этого ключа, но для лучших результатов рекомендуется OpenAI. Вы можете получить ключ на платформе OpenAI.
- Сохранить: Нажмите Применить или OK, чтобы сохранить настройки. Теперь вы готовы к работе!
Пожалуйста, обратите внимание: Ваши API-ключи хранятся надёжно на вашем компьютере в файле настроек приложения и никогда никуда не отправляются, кроме как для подключения к соответствующим сервисам ИИ.
Быстрый старт: Создание вашего первого описания
Готовы начать? Просто выполните эти простые шаги:
- Выберите видео: Нажмите кнопку, например, "Локальный видеофайл" в главном окне или выберите источник видео из меню "Файл".
- Выберите шаблон инструкции (необязательно): В выпадающем меню перечислены готовые инструкции, которые управляют ИИ. Для первой попытки "Стандартное описание" является отличным началом.
- Запустите обработку: Приложение начнёт анализировать ваше видео. Вы можете следить за прогрессом в "Журнале состояния" внизу окна. Это может занять несколько минут, в зависимости от продолжительности видео.
Когда процесс завершится, видеоплеер с описаниями откроется автоматически, и вы сможете наслаждаться вашим только что описанным видео!
Основные функции
Видеоплеер с описаниями
Это ваш личный кинотеатр с описаниями. Пока видео воспроизводится в обычном режиме, ваша установленная программа чтения с экрана (например, JAWS или NVDA) будет зачитывать сгенерированные аудиоописания в нужные моменты.
- Элементы управления воспроизведением: Используйте кнопки "Воспроизвести/Пауза", "Перемотка назад/вперёд" или ползунок для навигации по видео.
- Область текущего аудиоописания: Здесь вы можете следить за текстом активного в данный момент описания.
- Редактировать описания: Если описание неточное, имеет неправильный тайминг или вы хотите его удалить, нажмите кнопку "Редактировать описания...", чтобы легко исправить или удалить его.
- Использование токенов ИИ: Эта область показывает, сколько "токенов" ИИ было использовано в процессе, помогая вам отслеживать использование API.
Управление шаблонами инструкций (промптами)
Инструкции (промпты) — это мощные указания, которые определяют, на чём фокусируется ИИ. Изменяя инструкцию, вы можете получить описания в совершенно разных стилях.
- Выбор шаблона: Перед обработкой видео выберите шаблон из выпадающего меню в главном окне.
- Управление шаблонами: Перейдите в Файл -> Управлять шаблонами инструкций.... Здесь вы можете добавлять, редактировать или удалять собственные инструкции. Это идеально подходит для сохранения часто используемых инструкций.
- Специфичные для языка: Ваши шаблоны инструкций сохраняются отдельно для каждого языка, который вы выбираете в настройках.
Узнать больше о сцене
Вы когда-нибудь задумывались, что держит персонаж или что написано на вывеске на заднем плане? Эта функция позволяет вам спросить всё, что придёт в голову о сцене.
- Приостановите видео в момент, который вас интересует.
- Нажмите кнопку Узнать больше....
- Введите свой вопрос в поле "Ваш новый вопрос:" (напр., "Какого цвета шляпа у женщины?" или "Что написано на стене?").
- Выберите, сколько секунд видео должен проанализировать ИИ, начиная с текущей позиции курсора.
- Нажмите "Отправить вопрос". Ответ ИИ появится в области "История разговора".
Исследователь сцен
Исследователь сцен — это интерактивный способ понять пространственное расположение сцены. Он помещает вас в виртуальную комнату, по которой вы можете перемещаться с помощью клавиатуры.
- Приостановите видео на сцене, которую вы хотите подробно исследовать.
- Нажмите кнопку Исследовать сцену..., а затем "Анализировать сцену".
Теперь вы в Исследователе сцен. Используйте клавиатуру для исследования:
- Клавиши со стрелками: Перемещают вашу виртуальную позицию по сетке.
- D: Предоставляет подробное описание общего плана сцены.
- L: Оглашает список всех объектов в сцене.
- Shift + L: Переход в "Режим прыжка", чтобы выбрать объект и перейти непосредственно к нему.
- Enter: Получить подробное описание ближайшего объекта.
- Escape: Закрыть Исследователь сцен.
Экспорт вашей работы
Когда вы довольны своими описаниями, вы можете экспортировать их из окна плеера в разных форматах:
- Экспорт в .TXT: Простой текстовый файл с временными метками.
- Экспорт в .SRT: Стандартный файл субтитров, который можно использовать в видеоплеерах, таких как VLC.
- Экспорт аудио (MP3): Возможно, самая захватывающая функция. Она озвучивает ваши описания голосом, который вы выбрали в настройках (SAPI5 или OpenAI), смешивает его с оригинальным звуком видео и автоматически понижает громкость фонового звука во время описаний, чтобы создать готовый к прослушиванию MP3-файл.
Подробный обзор расширенных настроек
Окно настроек (Ctrl + ,) даёт вам детальный контроль над поведением Omni Describer.
Вкладка "Настройки ИИ"
- Частота кадров для анализа ИИ: Определяет количество кадров в секунду, отправляемых в ИИ. Более низкое значение (напр., 5 FPS) может снизить стоимость API, но есть вероятность пропустить очень быстрые действия.
- Отправлять видео без звука в ИИ: Это полезная опция для предотвращения того, чтобы звук из видео (диалоги, музыка, эффекты) сбивал с толку ИИ. Вместо того чтобы пытаться описать взрыв, который он слышит, ИИ сосредоточится только на том, что происходит визуально.
- Отключить фильтры безопасности (использовать с осторожностью): Эта опция может позволить ИИ обрабатывать контент и генерировать описания, которые он обычно мог бы пометить как чувствительные. Однако это не является абсолютным обходом. Конечный результат по-прежнему подчиняется основным политикам безопасности Google, и нет гарантии, что все фильтры будут обойдены. Помните, что вы несёте ответственность за то, как вы используете эту функцию.
Вкладка "Вывод аудио"
- Движок синтеза речи (TTS):
- SAPI5 (встроенный в Windows): Использует голоса, совместимые с SAPI5, которые поставляются с Windows или установлены вами. Не требует дополнительного API-ключа. Качество звука будет зависеть от качества голосов, установленных в вашей системе.
- OpenAI TTS (высокое качество): Обычно создаёт более естественные и плавные голоса. Использование этой опции требует API-ключа OpenAI и способа оплаты, связанного с вашей учётной записью.
Советы и хитрости для лучших результатов
Создание отличных аудиоописаний — это искусство. Хотя ИИ является эффективным помощником в этом искусстве, вы получите лучшие результаты, если будете правильно его направлять.
Сила инструкций: Ваши режиссёрские заметки
Приложение имеет набор основных правил, которым оно обучает ИИ (например, не говорить поверх диалогов). Представьте область Шаблон инструкции на главном экране как место, где вы оставляете свои режиссёрские заметки для конкретного видео. Хорошая заметка помогает ИИ сосредоточиться на определённом стиле или детали, в то время как расплывчатая может привести к неожиданным результатам.
Когда (и как) использовать инструкцию?
В большинстве случаев ИИ может давать отличные результаты без специальной инструкции, полагаясь только на свои основные правила. Я рекомендую использовать эту функцию только тогда, когда у вас есть конкретная цель.
Совет №1: Инструкция "Сосредоточиться на именах"
В видео с большим количеством персонажей, где имена важны, ИИ иногда может колебаться использовать имя. Чтобы приоритизировать отслеживание имён, вы можете создать собственную инструкцию:
Для этого видео твоим наивысшим приоритетом является идентификация и использование правильных имён персонажей, как только они будут произнесены в диалоге. Это важнее, чем быть слишком лаконичным. Сосредотачиваясь на этом, старайся придерживаться всех остальных системных правил как можно лучше.
Совет №2: Инструкция "Описать атмосферу"
В визуально насыщенных фильмах, где атмосфера является ключевой, вы можете направить ИИ сосредоточиться на окружении:
Сосредоточься на описании обстановки, атмосферы и деталей окружения. Чтобы создать богатый визуальный мир, упомяни освещение, цвета и общее настроение сцены. Уделяй меньше внимания незначительным движениям персонажей, если они не являются критическими.
Чего следует избегать в инструкциях?
Для лучших результатов важно избегать инструкций, которые противоречат основным принципам работы ИИ. Поскольку ИИ всегда пытается следовать инструкциям, предоставление ему ошибочного указания может привести к неправильной интерпретации видео.
- Пример плохой инструкции:
"Расскажи мне всё, что происходит." Это может сделать ИИ чрезмерно нечувствительным, заставив его сосредоточиться на неважных деталях, таких как "(персонаж говорит)", вместо значимых действий.
- Пример плохой инструкции:
"Скажи мне, что говорят персонажи." Это может заставить его нарушить правило "описывать только визуальное" и описывать диалоги, например, "персонаж сказал взять это."
Короче говоря: Используйте инструкции не для того, чтобы изменять фундаментальные правила хорошего аудиоописания, а чтобы направить ИИ на конкретный фокус.
Часто задаваемые вопросы (FAQ)
В: Защищены ли мои API-ключи?
О: Да. Ваши ключи хранятся только на вашем компьютере и никогда никому не передаются, кроме как для подключения к сервисам Google/OpenAI.
В: Почему генерация описаний занимает так много времени?
О: Время зависит от продолжительности вашего видео, скорости вашего Интернета (для загрузки видео в ИИ), выбранной вами частоты кадров и текущей нагрузки на сервисы ИИ. Настоятельно рекомендуется использовать функцию "Включить фрагментацию видео" для длинных видео.
В: Почему ИИ не описал то, что я видел на экране?
О: ИИ обучен предпочитать тишину, чем делать ошибку или говорить поверх диалога. Вы можете использовать функцию "Узнать больше...", чтобы узнать о конкретных моментах, или выбрать уровень детализации "Подробный" в настройках.
Горячие клавиши
- Ctrl + O: Открыть локальное видео
- Ctrl + U: Открыть с прямого URL
- Ctrl + Y: Открыть с YouTube
- Ctrl + ,: Открыть настройки
- F1: Просмотреть справку
Большое спасибо за использование Omni Describer! Эта программа является отражением моего желания сделать визуальные медиа более доступными и приятными для всех. То, что пользователи, как вы, используют этот инструмент и предоставляют обратную связь, является для меня самой большой мотивацией продолжать его разработку.
Обратная связь и поддержка
У вас есть вопрос, сообщение об ошибке или идея для новой функции? Я был бы рад услышать от вас! Лучший способ связаться со мной — по электронной почте. Ваш отзыв бесценен для того, чтобы сделать Omni Describer ещё лучше.