Hướng dẫn Sử dụng Omni Describer
Mang lại Giọng nói cho Thế giới Hình ảnh bằng AI.
Tất cả bắt đầu từ tình yêu của tôi dành cho điện ảnh. Khi tôi nhận ra có biết bao chi tiết trong những cảnh phim yêu thích của mình bị bỏ lỡ nếu không có mô tả âm thanh tốt, một ý tưởng đã lóe lên: "Chà, liệu AI có thể làm điều này dễ dàng hơn cho chúng ta không?" Tôi đã mơ về một công cụ không chỉ tạo ra mô tả mà còn trao toàn quyền kiểm soát cho người dùng. Sau nhiều tháng làm việc cật lực, vô số lần thử nghiệm và vượt qua nhiều rào cản kỹ thuật, tôi đã phát triển Omni Describer như là sản phẩm của giấc mơ đó.
Mục lục
Ý nghĩa của Tên gọi?
"Omni" trong tên gọi bắt nguồn từ tiếng Latin, có nghĩa là "tất cả" hoặc "mọi thứ". Tôi chọn cái tên này vì tôi không muốn công cụ chỉ phục vụ một mục đích duy nhất. Vâng, Omni Describer chủ yếu nhằm mục đích giúp người mù và người khiếm thị tiếp cận phương tiện truyền thông bằng cách tạo ra các mô tả âm thanh. Tuy nhiên, mục đích của nó không chỉ giới hạn ở đó.
Đây còn là một công cụ khám phá. Một nhà phê bình phim, một sinh viên, một nghệ sĩ, hay bất kỳ ai tò mò về các chi tiết hình ảnh đều có thể sử dụng các tính năng như "Trình khám phá Cảnh" hoặc "Hỏi thêm" để đi sâu vào các lớp của một video theo cách chưa từng có. Omni Describer là một cửa sổ để nhìn thế giới qua "đôi mắt" của AI và hiểu nó một cách khác biệt. Tóm lại, đây là "một trình mô tả cho mọi thứ, cho mọi người."
Yêu cầu Hệ thống
Để có được hiệu suất tốt nhất từ Omni Describer, tôi khuyên bạn nên đáp ứng các yêu cầu hệ thống tối thiểu sau:
- Hệ điều hành: Windows 10 hoặc mới hơn (64-bit).
- Bộ nhớ (RAM): Ít nhất 4 GB RAM.
- Dung lượng lưu trữ: Ít nhất 500 MB dung lượng đĩa trống cho ứng dụng và các tệp tạm thời.
- Kết nối Internet: Cần có kết nối internet hoạt động để kết nối với các dịch vụ AI (Google Gemini, OpenAI) và tải xuống video.
- Trình đọc màn hình: Để có khả năng tiếp cận đầy đủ, bạn nên sử dụng một trình đọc màn hình như JAWS, NVDA hoặc Windows Narrator.
Bắt đầu: Thiết lập Khóa API của bạn
Omni Describer sử dụng các dịch vụ AI trên nền tảng đám mây để phân tích và đọc các mô tả. Do đó, bạn cần nhập khóa API của riêng mình trước khi có thể bắt đầu.
- Mở Cài đặt: Đi tới menu Tệp và chọn Cài đặt... (hoặc nhấn Ctrl + ,).
- Tab Cài đặt AI:
- Khóa API Gemini: Đây là yêu cầu bắt buộc để phân tích video. Dán khóa của bạn vào trường "Khóa API Gemini:". Bạn có thể nhận khóa API miễn phí từ Google AI Studio.
- Khóa API OpenAI (cho TTS): Đây là yêu cầu để có giọng nói chuyển văn bản thành giọng nói chất lượng cao. Dán khóa của bạn vào trường này. Bạn vẫn có thể sử dụng các giọng nói tích hợp sẵn của Windows mà không cần khóa này, nhưng OpenAI được khuyến nghị để có kết quả tốt nhất. Bạn có thể lấy khóa từ Nền tảng OpenAI.
- Lưu: Nhấp vào Áp dụng hoặc OK để lưu cài đặt của bạn. Bây giờ bạn đã sẵn sàng!
Lưu trữ An toàn: Các khóa API của bạn được mã hóa và lưu trữ an toàn trên máy tính của bạn trong tệp cài đặt của ứng dụng. Chúng không bao giờ được gửi đi bất kỳ đâu ngoại trừ việc kết nối trực tiếp đến các dịch vụ AI tương ứng.
Khởi động nhanh: Tạo Mô tả Đầu tiên của bạn
Hãy bắt đầu nào! Chỉ cần làm theo các bước đơn giản sau:
- Chọn một Video: Nhấp vào một nút như "Tệp Video từ Máy tính" trên cửa sổ chính hoặc chọn nguồn video của bạn từ menu Tệp.
- Chọn một Lời nhắc (Tùy chọn): Menu thả xuống liệt kê các hướng dẫn được tạo sẵn để chỉ dẫn AI. Đối với lần thử đầu tiên, để ở mức "(Chưa chọn Thiết lập sẵn)" là một điểm khởi đầu tuyệt vời.
- Bắt đầu Xử lý: Ứng dụng bây giờ sẽ bắt đầu phân tích video của bạn. Bạn có thể theo dõi tiến trình trong "Nhật ký Trạng thái" ở cuối cửa sổ. Quá trình này có thể mất vài phút, tùy thuộc vào độ dài của video.
Khi quá trình hoàn tất, Trình phát Video có Mô tả sẽ tự động mở ra, và bạn có thể bắt đầu thưởng thức video vừa được mô tả của mình!
Các Tính năng Chính
Trình phát Video có Mô tả
Đây là rạp chiếu phim có mô tả cá nhân của bạn. Khi video phát, trình đọc màn hình đã cài đặt của bạn (như JAWS hoặc NVDA) sẽ đọc to các mô tả âm thanh được tạo ra vào đúng thời điểm.
- Điều khiển Phát lại: Sử dụng các nút Phát/Tạm dừng, Tua lại/Tua tới, hoặc thanh trượt tìm kiếm để điều hướng video.
- Khu vực Mô tả Hiện tại: Bạn có thể theo dõi văn bản của mô tả đang hoạt động tại đây.
- Chỉnh sửa và Tinh chỉnh: Nhấp vào nút "Chỉnh sửa Mô tả..." để mở một trình soạn thảo mạnh mẽ cho toàn quyền kiểm soát dự án của bạn.
- Mức sử dụng Token của AI: Khu vực này cho bạn thấy bao nhiêu "token" AI đã được sử dụng, giúp bạn theo dõi việc sử dụng API của mình.
Chỉnh sửa Mô tả: Sức mạnh Tinh chỉnh
AI cung cấp một điểm khởi đầu tuyệt vời, nhưng chất lượng thực sự đến từ sự tinh chỉnh. Nút "Chỉnh sửa Mô tả..." trong trình phát sẽ mở ra một trình soạn thảo mạnh mẽ cho phép bạn kiểm soát hoàn toàn mọi khía cạnh của dự án.
- Chọn và Sửa đổi: Chọn bất kỳ mô tả nào từ danh sách thả xuống ở trên cùng để tải chi tiết của nó vào trình soạn thảo.
- Điều chỉnh Mốc thời gian: Chỉnh sửa trực tiếp các trường
Thời gian Bắt đầu và Thời gian Kết thúc. Khi bạn thay đổi thời gian bắt đầu, thời gian kết thúc sẽ tự động dịch chuyển để giữ nguyên thời lượng của mô tả. Tất cả thời gian đều được xác thực để đảm bảo chúng nằm trong giới hạn của video.
- Viết lại Văn bản: Tự do chỉnh sửa văn bản mô tả trong hộp văn bản chính để cải thiện sự rõ ràng, thêm chi tiết hoặc sửa chữa những điểm không chính xác.
- Thêm Mô tả Mới: Nhấp vào nút "Thêm mới..." để mở một hộp thoại đơn giản nơi bạn có thể tạo một mô tả hoàn toàn mới từ đầu, thiết lập thời gian và văn bản của nó.
- Xóa Mô tả: Chọn một mô tả và nhấp vào nút "Xóa" để loại bỏ nó vĩnh viễn.
Lưu Công việc của bạn: Những thay đổi bạn thực hiện trong trình soạn thảo (thêm, xóa, sửa đổi) được áp dụng ngay lập tức cho phiên làm việc hiện tại của bạn. Khi bạn hoàn tất, chỉ cần nhấp vào nút "Đóng" để quay lại trình phát. Danh sách mô tả đã cập nhật của bạn sẽ được sử dụng để phát lại và cho bất kỳ lần xuất tệp nào sau đó.
Quản lý Thiết lập sẵn Lời nhắc
Lời nhắc là những hướng dẫn mạnh mẽ quyết định AI sẽ tập trung vào điều gì. Bằng cách thay đổi lời nhắc, bạn có thể nhận được các mô tả theo những phong cách khác nhau rõ rệt.
- Chọn một Thiết lập sẵn: Trước khi xử lý video, hãy chọn một thiết lập sẵn từ menu thả xuống trên cửa sổ chính.
- Quản lý Thiết lập sẵn: Đi tới Tệp -> Quản lý Thiết lập sẵn Lời nhắc.... Tại đây bạn có thể Thêm, Sửa hoặc Xóa các lời nhắc tùy chỉnh của riêng mình. Điều này hoàn hảo để lưu các hướng dẫn bạn thường xuyên sử dụng.
- Dành riêng cho Ngôn ngữ: Các thiết lập sẵn lời nhắc của bạn được lưu riêng cho mỗi ngôn ngữ bạn chọn trong Cài đặt.
Hỏi thêm về Cảnh
Bạn đã bao giờ tự hỏi một nhân vật đang cầm gì hay một tấm biển ở hậu cảnh ghi gì chưa? Tính năng này cho phép bạn hỏi bất cứ điều gì bạn nghĩ đến về cảnh đó.
- Tạm dừng video tại thời điểm bạn tò mò.
- Nhấp vào nút Hỏi thêm....
- Nhập câu hỏi của bạn vào trường "Câu hỏi mới của bạn:" (ví dụ: "Chiếc mũ của người phụ nữ màu gì?" hoặc "Chữ viết trên tường nói gì?").
- Chọn số giây video mà AI nên phân tích xung quanh thời điểm hiện tại.
- Nhấp vào "Gửi câu hỏi." Câu trả lời của AI sẽ xuất hiện trong khu vực "Lịch sử Hội thoại".
Trình khám phá Cảnh
Trình khám phá Cảnh là một cách tương tác để hiểu bố cục không gian của một cảnh. Nó đặt bạn vào một căn phòng ảo mà bạn có thể điều hướng bằng bàn phím.
- Tạm dừng video ở một cảnh bạn muốn khám phá chi tiết.
- Nhấp vào nút Khám phá Cảnh..., sau đó nhấp vào "Phân tích Cảnh".
Bây giờ bạn đang ở trong Trình khám phá Cảnh. Sử dụng bàn phím để khám phá:
- Các phím Mũi tên: Di chuyển vị trí ảo của bạn trên một lưới.
- D: Cung cấp một mô tả chi tiết về bố cục tổng thể của cảnh.
- L: Thông báo danh sách tất cả các đối tượng trong cảnh.
- Shift + L: Chuyển sang "Chế độ Nhảy" để chọn một đối tượng và đi thẳng đến đó.
- Enter: Nhận mô tả chi tiết về đối tượng gần nhất.
- Escape: Đóng Trình khám phá Cảnh.
Xuất tệp Công việc của bạn
Khi bạn đã hài lòng với các mô tả của mình, bạn có thể xuất chúng từ Cửa sổ Trình phát ở các định dạng khác nhau:
- Xuất ra .TXT: Một tệp văn bản đơn giản với các mốc thời gian.
- Xuất ra .SRT: Một tệp phụ đề tiêu chuẩn bạn có thể sử dụng trong các trình phát video như VLC.
- Xuất Âm thanh (MP3): Đây có lẽ là tính năng thú vị nhất. Nó đọc các mô tả của bạn bằng giọng nói bạn đã chọn trong Cài đặt (SAPI5 hoặc OpenAI), trộn nó với âm thanh video gốc và tự động giảm nhỏ âm thanh nền trong khi có mô tả để tạo ra một tệp MP3 bạn có thể nghe ở bất cứ đâu.
Tìm hiểu sâu về Cài đặt
Cửa sổ Cài đặt (Ctrl + ,) cho phép bạn kiểm soát chi tiết hành vi của Omni Describer.
Tab Chung
- Cho phép mô tả ngắt lời nói hiện tại: Khi được chọn, một mô tả mới sẽ bắt đầu nói ngay lập tức, ngay cả khi mô tả trước đó chưa kết thúc. Bỏ chọn mục này để mỗi mô tả kết thúc hoàn toàn trước khi mô tả tiếp theo bắt đầu. Hữu ích cho các cảnh có nhịp độ rất nhanh.
Tab Cài đặt AI
- Tốc độ khung hình để AI phân tích: Xác định số lượng khung hình video mỗi giây được gửi đến AI. Giá trị thấp hơn (ví dụ: 5 FPS) có thể giảm đáng kể chi phí API và giúp tránh các giới hạn xử lý, nhưng có thể khiến AI bỏ lỡ các hành động rất nhanh.
- Bật tính năng Chia đoạn Video: Đối với các video dài (hơn 10-15 phút), AI đôi khi có thể hết khả năng xử lý. Tính năng này tự động chia video thành các phần nhỏ hơn, phân tích chúng tuần tự và ghép các kết quả lại với nhau. Nó rất được khuyến nghị cho nội dung dạng dài.
- Tắt Bộ lọc An toàn (Sử dụng một cách thận trọng): Tùy chọn này có thể cho phép AI xử lý nội dung mà nó thường có thể gắn cờ là nhạy cảm. Tuy nhiên, đây không phải là một sự ghi đè tuyệt đối. Đầu ra vẫn tuân theo các chính sách an toàn cốt lõi của nhà cung cấp AI. Xin hãy nhớ rằng bạn chịu trách nhiệm về cách bạn sử dụng tính năng này.
Tab Đầu ra Âm thanh
- Cơ chế Chuyển văn bản thành giọng nói:
- SAPI5 (Tích hợp sẵn của Windows): Sử dụng các giọng nói đi kèm với Windows hoặc bạn đã cài đặt. Nó không yêu cầu khóa API bổ sung. Ứng dụng có thể truy cập cả giọng nói 64-bit hiện đại và giọng nói 32-bit cũ. Nếu bạn có các giọng nói cũ, yêu thích từ các hệ thống trước, việc chọn tùy chọn "SAPI5 (Giọng nói 32-bit)" sẽ cho phép bạn sử dụng chúng.
- OpenAI TTS (Chất lượng cao): Tạo ra các giọng nói tự nhiên và trôi chảy hơn. Sử dụng tùy chọn này yêu cầu tài khoản OpenAI trả phí và khóa API. Bạn có thể tạo và quản lý các thiết lập sẵn giọng nói tùy chỉnh cho OpenAI.
Mẹo và Thủ thuật để có Kết quả Tốt nhất
Tạo ra các mô tả âm thanh tuyệt vời là một nghệ thuật. Mặc dù AI là một trợ lý hiệu quả, bạn sẽ nhận được kết quả tốt nhất khi bạn hướng dẫn nó một cách chính xác.
Sức mạnh của Lời nhắc: Ghi chú của Đạo diễn
Ứng dụng có một bộ quy tắc cốt lõi mà nó dạy cho AI (như không nói chồng lên lời thoại). Hãy coi khu vực Thiết lập sẵn Lời nhắc trên màn hình chính là nơi bạn cung cấp ghi chú của đạo diễn cho video cụ thể đó. Một ghi chú tốt sẽ giúp AI tập trung vào một phong cách hoặc chi tiết cụ thể.
Mẹo: Lời nhắc "Tập trung vào Tên"
Trong một video có nhiều nhân vật, bạn có thể tạo một lời nhắc tùy chỉnh để ưu tiên việc theo dõi tên:
Ưu tiên cao nhất của bạn cho video này là xác định và sử dụng đúng tên nhân vật ngay khi chúng được nói ra.
Mẹo: Lời nhắc "Mô tả Không khí"
Đối với các bộ phim có hình ảnh phong phú, hãy hướng dẫn AI tập trung vào môi trường:
Tập trung vào việc mô tả bối cảnh, không khí và các chi tiết môi trường. Đề cập đến ánh sáng, màu sắc và tâm trạng chung của cảnh.
Những điều cần tránh trong Lời nhắc
Tránh các hướng dẫn mâu thuẫn với các nguyên tắc cốt lõi của AI (chỉ mô tả hình ảnh, không nói chồng lên lời thoại). Việc đưa ra một hướng dẫn sai lầm có thể gây ra kết quả kém.
- Lời nhắc Tồi:
"Hãy cho tôi biết mọi thứ xảy ra." Điều này quá mơ hồ và có thể khiến AI mô tả những chi tiết không quan trọng.
- Lời nhắc Tồi:
"Hãy cho tôi biết các nhân vật đang nói gì." Điều này sẽ khiến nó vi phạm quy tắc "chỉ hình ảnh".
Tóm lại: Sử dụng lời nhắc để định hướng sự tập trung của AI, chứ không phải để thay đổi các quy tắc cơ bản của một mô tả âm thanh tốt.
Câu hỏi Thường gặp (FAQ)
H: Khóa API của tôi không hoạt động. Tôi nên làm gì?
Đ: Đầu tiên, hãy kiểm tra lại xem bạn đã sao chép toàn bộ khóa một cách chính xác chưa. Đối với OpenAI, hãy đảm bảo bạn đã thiết lập phương thức thanh toán trong tài khoản của mình, vì dịch vụ TTS của họ không miễn phí. Đối với Gemini, hãy đảm bảo API đã được bật trong dự án Google Cloud của bạn.
H: Quá trình xử lý thất bại với lỗi "MAX_TOKENS". Điều này có nghĩa là gì?
Đ: Điều này có nghĩa là video của bạn quá dài hoặc phức tạp về mặt hình ảnh để AI xử lý trong một lần. Đây là một giới hạn về khả năng xử lý, không phải là lỗi nội dung. Giải pháp tốt nhất là đi tới Cài đặt -> Cài đặt AI và bật "Chia đoạn Video". Thao tác này sẽ tự động chia video thành các phần nhỏ hơn, dễ quản lý hơn cho AI.
H: AI không thể tạo mô tả vì "Bộ lọc An toàn". Tôi có thể làm gì?
Đ: Đây là một vấn đề đã biết, trong đó hệ thống an toàn của AI có thể quá thận trọng. Bạn có một vài lựa chọn để thử, theo thứ tự: 1) Đi tới Cài đặt -> Cài đặt AI và bật "Tắt Bộ lọc An toàn" (điều này thường hữu ích). 2) Nếu cách đó không thành công, hãy thử giảm "Tốc độ khung hình để AI phân tích" để gửi ít dữ liệu hơn cho AI. 3) Là phương án cuối cùng, bạn có thể sử dụng cài đặt "Ghi đè Mô hình Gemini" và nhập gemini-2.5-pro. Mô hình này mạnh hơn và có thể xử lý nội dung nhạy cảm tốt hơn, nhưng nó chậm hơn và có thể đắt hơn nếu bạn đang ở bậc API trả phí.
H: Một số giọng nói cũ của tôi bị thiếu trong danh sách SAPI5. Chúng đã đi đâu?
Đ: Các hệ thống Windows hiện đại là 64-bit, nhưng nhiều giọng nói chuyển văn bản thành giọng nói cổ điển, được yêu thích là 32-bit. Trong Cài đặt, dưới tab "Đầu ra Âm thanh", bạn sẽ thấy các lựa chọn cơ chế riêng biệt cho "SAPI5 (64-bit)" và "SAPI5 (32-bit)". Để truy cập các giọng nói cũ hơn của mình, chỉ cần chọn cơ chế 32-bit.
H: Tại sao việc tạo mô tả lại mất nhiều thời gian như vậy?
Đ: Thời gian phụ thuộc vào độ dài video của bạn, tốc độ internet của bạn (để tải lên cho AI), tốc độ khung hình đã chọn và tải hiện tại trên các dịch vụ AI. Việc sử dụng "Chia đoạn Video" rất được khuyến nghị cho các video dài.
Phím tắt
- Ctrl + O: Mở Video từ Máy tính
- Ctrl + U: Mở từ URL Trực tiếp
- Ctrl + Y: Mở từ YouTube
- Ctrl + ,: Mở Cài đặt
- F1: Xem Trợ giúp
Cảm ơn bạn rất nhiều vì đã sử dụng Omni Describer! Ứng dụng này là sự phản ánh mong muốn của tôi trong việc làm cho phương tiện truyền thông hình ảnh trở nên dễ tiếp cận và thú vị hơn cho mọi người. Việc có những người dùng như bạn sử dụng công cụ này và cung cấp phản hồi là động lực lớn nhất để tiếp tục phát triển nó.
Phản hồi và Hỗ trợ
Bạn có câu hỏi, báo cáo lỗi, hay ý tưởng cho một tính năng mới? Tôi rất muốn nghe từ bạn! Cách tốt nhất để liên lạc với tôi là qua email. Phản hồi của bạn là vô giá để làm cho Omni Describer trở nên tốt hơn nữa.