Sau khi được truyền cảm hứng từ các đồng nghiệp tại XDA, tôi đã bắt đầu sử dụng Obsidian như ứng dụng ghi chú chính trên máy tính. Tôi dùng nó để ghi lại những suy nghĩ, ý tưởng, liên kết, hình ảnh và nhiều thông tin liên quan khác. Tuy nhiên, việc gõ những ghi chú dài đôi khi khá mệt mỏi, và tôi ước Obsidian có một tính năng tích hợp để chuyển đổi ghi chú giọng nói thành văn bản. Trước đây, tôi đã thử ứng dụng Ghi chú của Apple để ghi và phiên âm giọng nói, nhưng trải nghiệm không mấy ấn tượng. Mọi thứ thay đổi khi tôi khám phá ra plugin Whisper cho Obsidian. Kể từ khi sử dụng, plugin này đã thay đổi hoàn toàn quy trình làm việc của tôi. Tôi say mê sử dụng nó để ghi chú bằng giọng nói mà không cần lo lắng về thời điểm hay cách thức tôi sẽ phiên âm chúng.
Plugin Whisper đã giúp tôi biến Obsidian thành một giải pháp ghi chú mạnh mẽ theo đúng nghĩa đen. Nó đã thay đổi cách tôi làm việc một cách không ngờ, và trải nghiệm tổng thể khi sử dụng Obsidian của tôi trở nên bổ ích hơn. Nhờ đó, tôi duy trì nhật ký cá nhân thường xuyên hơn, có thể ghi lại các ghi chú âm thanh nhanh chóng khi đang di chuyển. Hơn nữa, việc tìm kiếm văn bản liên quan trong một biển ghi chú trở nên cực kỳ nhanh chóng, nhờ vào các bản phiên âm mà plugin cung cấp. Mặc dù tôi khá “muộn” mới biết đến nó, tôi thực sự hối tiếc vì đã không sử dụng sớm hơn.
Giao diện Obsidian với cấu trúc thư mục giúp quản lý các dự án và ghi chú cá nhân hiệu quả
Plugin Whisper Tự Động Chuyển Đổi Ghi Chú Giọng Nói Thành Văn Bản Cực Nhanh
Trợ Lý Giọng Nói Bạn Hằng Mong Muốn Trong Obsidian
Tôi từng nghĩ ứng dụng Ghi chú của Apple đủ tốt để phiên âm giọng nói dễ dàng, nhưng tôi đã hoàn toàn sai lầm. Plugin Whisper, dù không phải là tính năng tích hợp sẵn, đã đủ thuyết phục tôi chuyển hoàn toàn từ ứng dụng Ghi chú sang Obsidian. Whisper là hệ thống nhận dạng giọng nói tự động (Automatic Speech Recognition – ASR) của OpenAI, có khả năng lắng nghe lời nói và chuyển đổi chúng thành văn bản. Để nó hoạt động trơn tru, tôi đã nhập khóa API của OpenAI vào phần cài đặt của plugin.
Sau đó, chỉ còn tôi và micro để ghi âm các ghi chú giọng nói trong Obsidian. Khi tôi dừng ghi âm, Obsidian sẽ hiển thị một trình phát mini cho âm thanh dưới dạng một ghi chú mới, và bản phiên âm sẽ tự động xuất hiện bên dưới dưới dạng văn bản. Sau nhiều lần thử nghiệm, tôi nhận thấy plugin sẽ phiên âm các ghi chú ngắn một cách nhanh chóng. Tuy nhiên, khi tôi thử tải lên các tệp âm thanh hiện có, chẳng hạn như một tập podcast dài 25 phút, quá trình chuyển đổi giọng nói thành văn bản mất khá nhiều thời gian.
Plugin này thực sự khiến tôi kinh ngạc với khả năng phiên âm chính xác, ngay cả khi cách phát âm của tôi đôi khi khác biệt với một số từ. Plugin thậm chí còn làm tôi ngạc nhiên khi tôi cố gắng bắt chước giọng điệu. Để kiểm tra kỹ hơn, tôi đã lấy cuốn sách tiếng Pháp cũ của mình ra và đọc to, và ngay cả bản đó cũng được phiên âm tốt, bất chấp vốn tiếng Pháp còn “gỉ” của tôi. Dĩ nhiên, nó không thể xử lý những từ bị bóp méo do sử dụng micro tai nghe chất lượng thấp.
Plugin giúp tôi tập trung vào việc nói mà không có bất kỳ sự kìm kẹp nào trong khi ghi chú. Tôi luôn có thể xem lại và sửa lỗi trong các ghi chú phiên âm sau này. Để thuận tiện, tôi đã tạo các thư mục để lưu trữ âm thanh và bản phiên âm từ plugin. Theo mặc định, plugin Obsidian lưu tất cả các ghi chú giọng nói riêng biệt, vì vậy tôi cần di chuyển chúng vào thư mục ghi chú giọng nói chuyên dụng của mình. Đó là một điều tôi có thể chấp nhận được.
Giao diện Obsidian hiển thị plugin Breadcrumbs giúp sắp xếp và liên kết các ghi chú một cách có hệ thống, tăng năng suất làm việc
Sử Dụng Plugin Whisper Có Nhược Điểm Nào Không?
Quyền Riêng Tư Và Chi Phí Cần Cân Nhắc
Việc thiết lập plugin Whisper trong Obsidian không tốn nhiều công sức. Tuy nhiên, bạn sẽ cần nạp một khoản tiền vào tài khoản OpenAI của mình vì gói miễn phí sẽ không hoạt động, và bạn cũng cần đăng ký làm nhà phát triển. Về chi phí, tôi ước tính sẽ mất khoảng 2 giờ 45 phút sử dụng dịch vụ chuyển đổi âm thanh thành văn bản của Whisper thông qua API để tiêu hết 1 đô la. Đáng tiếc, tôi phải trả phí riêng cho dịch vụ này vì nó không được bao gồm trong tài khoản ChatGPT trả phí của tôi và tôi bị tính phí theo mô hình trả tiền theo mức sử dụng (pay-as-you-go).
Khi thấy cài đặt Obsidian của tôi với Whisper, một người bạn đã bình luận một cách tình cờ về việc để OpenAI lắng nghe và xử lý tất cả suy nghĩ của tôi. Và bình luận đó vẫn đọng lại trong tôi. Khi tìm hiểu, tôi thấy rằng OpenAI cung cấp tùy chọn tắt ghi nhật ký dữ liệu (Data logging) từ cài đặt tài khoản, và điều đó giải quyết các lo ngại về quyền riêng tư. Nếu không, dữ liệu âm thanh của tôi sẽ được lưu trữ trên máy chủ của OpenAI trong 30 ngày. Ít nhất đó là những gì OpenAI tuyên bố, bên cạnh việc không sử dụng dữ liệu đó để đào tạo mô hình. Tuy nhiên, tôi vẫn muốn tìm hiểu xem liệu tôi có thể chạy mô hình chuyển giọng nói thành văn bản cục bộ trên máy tính của mình hay không.
Tùy Chọn Chạy Mô Hình Whisper Offline Trên Máy Tính Cá Nhân
Đòi Hỏi Nhiều Nỗ Lực Và Tài Nguyên
Vì mô hình Whisper cốt lõi là mã nguồn mở, tôi đã tìm hiểu cách để nó hoạt động trên chiếc MacBook Air M1 cơ bản của mình với 8GB RAM. Tôi đã tình cờ tìm thấy phiên bản C/C++ của mô hình Whisper (whisper.cpp), có thể chạy cục bộ trên máy tính ở chế độ ngoại tuyến. Sau khi sao chép repository và tải xuống một mô hình Whisper lớn đã được chuyển đổi sang định dạng nhị phân tùy chỉnh, tôi đã xây dựng ứng dụng Whisper.cpp.
Sử dụng một script shell, tôi đã chạy một máy chủ mô hình Whisper cục bộ để hoạt động với plugin Whisper trong Obsidian và ghi lại một ghi chú giọng nói. Bản phiên âm xuất hiện tự động cùng với ghi chú âm thanh bằng cách sử dụng phiên bản mô hình Whisper cục bộ. Sau nhiều lần thử nghiệm, tôi nhận ra rằng mô hình Whisper cục bộ có độ chính xác thấp hơn và đôi khi không thể nhận diện được giọng điệu. Tuy nhiên, tôi vẫn đạt được kết quả khá tốt với một vài ghi chú giọng nói được chuyển đổi thành văn bản.
Giao diện Obsidian được sử dụng như một hệ thống quản lý kiến thức cá nhân (PKM), với nhiều ghi chú và liên kết
Nói Để Giải Phóng Bản Thân Khỏi Ghi Chú Bằng Cách Gõ Phím
Gõ phím không phải là cách duy nhất để ghi chú trong Obsidian. Plugin Whisper làm cho nó trở nên phù hợp với bất kỳ ai muốn giải phóng bản thân khỏi việc gõ bàn phím. Ngay cả khi bạn thích gõ phím, tôi vẫn khuyến khích bạn thử plugin này ít nhất một lần. Plugin này là một ví dụ điển hình về cộng đồng Obsidian sôi nổi, luôn xây dựng nhiều tiện ích bổ sung để biến ứng dụng này thành yêu thích của nhiều người. Ngay cả khi mô hình Whisper cục bộ được hỗ trợ bởi các tệp nhị phân tùy chỉnh hoạt động tốt, tôi vẫn khuyên bạn nên sử dụng một máy tính mạnh mẽ với CPU khá và ít nhất 16GB RAM.
Plugin Whisper đã khiến tôi tự tin hơn, nói ra những suy nghĩ và ý tưởng của mình một cách cởi mở bằng cách ghi âm chúng. Đó là cách nó nhanh chóng trở thành ứng dụng ghi chú yêu thích của tôi sau khi thử nhiều ứng dụng khác.
Logo của ứng dụng ghi chú Obsidian, biểu tượng cho công cụ quản lý kiến thức mạnh mẽ