Hướng dẫn Sử dụng Omni Describer

Mang lại Giọng nói cho Thế giới Hình ảnh bằng AI.

Tất cả bắt đầu từ tình yêu của tôi dành cho điện ảnh. Khi tôi nhận ra có biết bao chi tiết trong những cảnh phim yêu thích của mình bị bỏ lỡ nếu không có mô tả âm thanh tốt, một ý tưởng đã lóe lên: "Chà, liệu AI có thể làm điều này dễ dàng hơn cho chúng ta không?" Tôi đã mơ về một công cụ không chỉ tạo ra mô tả mà còn trao toàn quyền kiểm soát cho người dùng. Sau nhiều tháng làm việc cật lực, vô số lần thử nghiệm và vượt qua nhiều rào cản kỹ thuật, tôi đã phát triển Omni Describer như là sản phẩm của giấc mơ đó.

Mục lục

Ý nghĩa của Tên gọi?

"Omni" trong tên gọi bắt nguồn từ tiếng Latin, có nghĩa là "tất cả" hoặc "mọi thứ". Tôi chọn cái tên này vì tôi không muốn công cụ chỉ phục vụ một mục đích duy nhất. Vâng, Omni Describer chủ yếu nhằm mục đích giúp người mù và người khiếm thị tiếp cận phương tiện truyền thông bằng cách tạo ra các mô tả âm thanh. Tuy nhiên, mục đích của nó không chỉ giới hạn ở đó.

Đây còn là một công cụ khám phá. Một nhà phê bình phim, một sinh viên, một nghệ sĩ, hay bất kỳ ai tò mò về các chi tiết hình ảnh đều có thể sử dụng các tính năng như "Trình khám phá Cảnh" hoặc "Hỏi thêm" để đi sâu vào các lớp của một video theo cách chưa từng có. Omni Describer là một cửa sổ để nhìn thế giới qua "đôi mắt" của AI và hiểu nó một cách khác biệt. Tóm lại, đây là "một trình mô tả cho mọi thứ, cho mọi người."

Yêu cầu Hệ thống

Để có được hiệu suất tốt nhất từ Omni Describer, tôi khuyên bạn nên đáp ứng các yêu cầu hệ thống tối thiểu sau:

Bắt đầu: Thiết lập Khóa API của bạn

Omni Describer sử dụng các dịch vụ AI trên nền tảng đám mây để phân tích và đọc các mô tả. Do đó, bạn cần nhập khóa API của riêng mình trước khi có thể bắt đầu.

  1. Mở Cài đặt: Đi tới menu Tệp và chọn Cài đặt... (hoặc nhấn Ctrl + ,).
  2. Tab Cài đặt AI:
    • Khóa API Gemini: Đây là yêu cầu bắt buộc để phân tích video. Dán khóa của bạn vào trường "Khóa API Gemini:". Bạn có thể nhận khóa API miễn phí từ Google AI Studio.
    • Khóa API OpenAI (cho TTS): Đây là yêu cầu để có giọng nói chuyển văn bản thành giọng nói chất lượng cao. Dán khóa của bạn vào trường này. Bạn vẫn có thể sử dụng các giọng nói tích hợp sẵn của Windows mà không cần khóa này, nhưng OpenAI được khuyến nghị để có kết quả tốt nhất. Bạn có thể lấy khóa từ Nền tảng OpenAI.
  3. Lưu: Nhấp vào Áp dụng hoặc OK để lưu cài đặt của bạn. Bây giờ bạn đã sẵn sàng!
Lưu trữ An toàn: Các khóa API của bạn được mã hóa và lưu trữ an toàn trên máy tính của bạn trong tệp cài đặt của ứng dụng. Chúng không bao giờ được gửi đi bất kỳ đâu ngoại trừ việc kết nối trực tiếp đến các dịch vụ AI tương ứng.

Khởi động nhanh: Tạo Mô tả Đầu tiên của bạn

Hãy bắt đầu nào! Chỉ cần làm theo các bước đơn giản sau:

  1. Chọn một Video: Nhấp vào một nút như "Tệp Video từ Máy tính" trên cửa sổ chính hoặc chọn nguồn video của bạn từ menu Tệp.
  2. Chọn một Lời nhắc (Tùy chọn): Menu thả xuống liệt kê các hướng dẫn được tạo sẵn để chỉ dẫn AI. Đối với lần thử đầu tiên, để ở mức "(Chưa chọn Thiết lập sẵn)" là một điểm khởi đầu tuyệt vời.
  3. Bắt đầu Xử lý: Ứng dụng bây giờ sẽ bắt đầu phân tích video của bạn. Bạn có thể theo dõi tiến trình trong "Nhật ký Trạng thái" ở cuối cửa sổ. Quá trình này có thể mất vài phút, tùy thuộc vào độ dài của video.

Khi quá trình hoàn tất, Trình phát Video có Mô tả sẽ tự động mở ra, và bạn có thể bắt đầu thưởng thức video vừa được mô tả của mình!

Các Tính năng Chính

Trình phát Video có Mô tả

Đây là rạp chiếu phim có mô tả cá nhân của bạn. Khi video phát, trình đọc màn hình đã cài đặt của bạn (như JAWS hoặc NVDA) sẽ đọc to các mô tả âm thanh được tạo ra vào đúng thời điểm.

Chỉnh sửa Mô tả: Sức mạnh Tinh chỉnh

AI cung cấp một điểm khởi đầu tuyệt vời, nhưng chất lượng thực sự đến từ sự tinh chỉnh. Nút "Chỉnh sửa Mô tả..." trong trình phát sẽ mở ra một trình soạn thảo mạnh mẽ cho phép bạn kiểm soát hoàn toàn mọi khía cạnh của dự án.

Lưu Công việc của bạn: Những thay đổi bạn thực hiện trong trình soạn thảo (thêm, xóa, sửa đổi) được áp dụng ngay lập tức cho phiên làm việc hiện tại của bạn. Khi bạn hoàn tất, chỉ cần nhấp vào nút "Đóng" để quay lại trình phát. Danh sách mô tả đã cập nhật của bạn sẽ được sử dụng để phát lại và cho bất kỳ lần xuất tệp nào sau đó.

Quản lý Thiết lập sẵn Lời nhắc

Lời nhắc là những hướng dẫn mạnh mẽ quyết định AI sẽ tập trung vào điều gì. Bằng cách thay đổi lời nhắc, bạn có thể nhận được các mô tả theo những phong cách khác nhau rõ rệt.

Hỏi thêm về Cảnh

Bạn đã bao giờ tự hỏi một nhân vật đang cầm gì hay một tấm biển ở hậu cảnh ghi gì chưa? Tính năng này cho phép bạn hỏi bất cứ điều gì bạn nghĩ đến về cảnh đó.

  1. Tạm dừng video tại thời điểm bạn tò mò.
  2. Nhấp vào nút Hỏi thêm....
  3. Nhập câu hỏi của bạn vào trường "Câu hỏi mới của bạn:" (ví dụ: "Chiếc mũ của người phụ nữ màu gì?" hoặc "Chữ viết trên tường nói gì?").
  4. Chọn số giây video mà AI nên phân tích xung quanh thời điểm hiện tại.
  5. Nhấp vào "Gửi câu hỏi." Câu trả lời của AI sẽ xuất hiện trong khu vực "Lịch sử Hội thoại".

Trình khám phá Cảnh

Trình khám phá Cảnh là một cách tương tác để hiểu bố cục không gian của một cảnh. Nó đặt bạn vào một căn phòng ảo mà bạn có thể điều hướng bằng bàn phím.

  1. Tạm dừng video ở một cảnh bạn muốn khám phá chi tiết.
  2. Nhấp vào nút Khám phá Cảnh..., sau đó nhấp vào "Phân tích Cảnh".

Bây giờ bạn đang ở trong Trình khám phá Cảnh. Sử dụng bàn phím để khám phá:

Xuất tệp Công việc của bạn

Khi bạn đã hài lòng với các mô tả của mình, bạn có thể xuất chúng từ Cửa sổ Trình phát ở các định dạng khác nhau:

Tìm hiểu sâu về Cài đặt

Cửa sổ Cài đặt (Ctrl + ,) cho phép bạn kiểm soát chi tiết hành vi của Omni Describer.

Tab Chung

Tab Cài đặt AI

Tab Đầu ra Âm thanh

Mẹo và Thủ thuật để có Kết quả Tốt nhất

Tạo ra các mô tả âm thanh tuyệt vời là một nghệ thuật. Mặc dù AI là một trợ lý hiệu quả, bạn sẽ nhận được kết quả tốt nhất khi bạn hướng dẫn nó một cách chính xác.

Sức mạnh của Lời nhắc: Ghi chú của Đạo diễn

Ứng dụng có một bộ quy tắc cốt lõi mà nó dạy cho AI (như không nói chồng lên lời thoại). Hãy coi khu vực Thiết lập sẵn Lời nhắc trên màn hình chính là nơi bạn cung cấp ghi chú của đạo diễn cho video cụ thể đó. Một ghi chú tốt sẽ giúp AI tập trung vào một phong cách hoặc chi tiết cụ thể.
Mẹo: Lời nhắc "Tập trung vào Tên"
Trong một video có nhiều nhân vật, bạn có thể tạo một lời nhắc tùy chỉnh để ưu tiên việc theo dõi tên: Ưu tiên cao nhất của bạn cho video này là xác định và sử dụng đúng tên nhân vật ngay khi chúng được nói ra.
Mẹo: Lời nhắc "Mô tả Không khí"
Đối với các bộ phim có hình ảnh phong phú, hãy hướng dẫn AI tập trung vào môi trường: Tập trung vào việc mô tả bối cảnh, không khí và các chi tiết môi trường. Đề cập đến ánh sáng, màu sắc và tâm trạng chung của cảnh.

Những điều cần tránh trong Lời nhắc

Tránh các hướng dẫn mâu thuẫn với các nguyên tắc cốt lõi của AI (chỉ mô tả hình ảnh, không nói chồng lên lời thoại). Việc đưa ra một hướng dẫn sai lầm có thể gây ra kết quả kém.

Tóm lại: Sử dụng lời nhắc để định hướng sự tập trung của AI, chứ không phải để thay đổi các quy tắc cơ bản của một mô tả âm thanh tốt.

Câu hỏi Thường gặp (FAQ)

H: Khóa API của tôi không hoạt động. Tôi nên làm gì?
Đ: Đầu tiên, hãy kiểm tra lại xem bạn đã sao chép toàn bộ khóa một cách chính xác chưa. Đối với OpenAI, hãy đảm bảo bạn đã thiết lập phương thức thanh toán trong tài khoản của mình, vì dịch vụ TTS của họ không miễn phí. Đối với Gemini, hãy đảm bảo API đã được bật trong dự án Google Cloud của bạn.

H: Quá trình xử lý thất bại với lỗi "MAX_TOKENS". Điều này có nghĩa là gì?
Đ: Điều này có nghĩa là video của bạn quá dài hoặc phức tạp về mặt hình ảnh để AI xử lý trong một lần. Đây là một giới hạn về khả năng xử lý, không phải là lỗi nội dung. Giải pháp tốt nhất là đi tới Cài đặt -> Cài đặt AI và bật "Chia đoạn Video". Thao tác này sẽ tự động chia video thành các phần nhỏ hơn, dễ quản lý hơn cho AI.

H: AI không thể tạo mô tả vì "Bộ lọc An toàn". Tôi có thể làm gì?
Đ: Đây là một vấn đề đã biết, trong đó hệ thống an toàn của AI có thể quá thận trọng. Bạn có một vài lựa chọn để thử, theo thứ tự: 1) Đi tới Cài đặt -> Cài đặt AI và bật "Tắt Bộ lọc An toàn" (điều này thường hữu ích). 2) Nếu cách đó không thành công, hãy thử giảm "Tốc độ khung hình để AI phân tích" để gửi ít dữ liệu hơn cho AI. 3) Là phương án cuối cùng, bạn có thể sử dụng cài đặt "Ghi đè Mô hình Gemini" và nhập gemini-2.5-pro. Mô hình này mạnh hơn và có thể xử lý nội dung nhạy cảm tốt hơn, nhưng nó chậm hơn và có thể đắt hơn nếu bạn đang ở bậc API trả phí.

H: Một số giọng nói cũ của tôi bị thiếu trong danh sách SAPI5. Chúng đã đi đâu?
Đ: Các hệ thống Windows hiện đại là 64-bit, nhưng nhiều giọng nói chuyển văn bản thành giọng nói cổ điển, được yêu thích là 32-bit. Trong Cài đặt, dưới tab "Đầu ra Âm thanh", bạn sẽ thấy các lựa chọn cơ chế riêng biệt cho "SAPI5 (64-bit)" và "SAPI5 (32-bit)". Để truy cập các giọng nói cũ hơn của mình, chỉ cần chọn cơ chế 32-bit.

H: Tại sao việc tạo mô tả lại mất nhiều thời gian như vậy?
Đ: Thời gian phụ thuộc vào độ dài video của bạn, tốc độ internet của bạn (để tải lên cho AI), tốc độ khung hình đã chọn và tải hiện tại trên các dịch vụ AI. Việc sử dụng "Chia đoạn Video" rất được khuyến nghị cho các video dài.

Phím tắt

Lời cảm ơn, Liên hệ và Người đóng góp

Cảm ơn bạn rất nhiều vì đã sử dụng Omni Describer! Ứng dụng này là sự phản ánh mong muốn của tôi trong việc làm cho phương tiện truyền thông hình ảnh trở nên dễ tiếp cận và thú vị hơn cho mọi người. Việc có những người dùng như bạn sử dụng công cụ này và cung cấp phản hồi là động lực lớn nhất để tiếp tục phát triển nó.

Phản hồi và Hỗ trợ

Bạn có câu hỏi, báo cáo lỗi, hay ý tưởng cho một tính năng mới? Tôi rất muốn nghe từ bạn! Cách tốt nhất để liên lạc với tôi là qua email. Phản hồi của bạn là vô giá để làm cho Omni Describer trở nên tốt hơn nữa.