Dù có nhiều điều để chê trách Microsoft Copilot, tôi vẫn tin rằng ban đầu công cụ này có tiềm năng phát triển, đặc biệt với khả năng tích hợp sâu vào Windows. Việc có thể điều khiển các phần của PC bằng AI nghe có vẻ khá thú vị, giúp người dùng không cần điều hướng thủ công qua các trang và cài đặt phức tạp. Thế nhưng, như với hầu hết các ý tưởng hấp dẫn, Microsoft đã từ bỏ nó và biến Copilot thành một trợ lý AI thông thường. May mắn thay, Windows-MCP, một công cụ của bên thứ ba, đã xuất hiện để lấp đầy khoảng trống đó. Dựa trên các mô hình ngôn ngữ lớn (LLM) khác như Claude của Anthropic, Windows-MCP có thể kiểm soát PC của bạn theo nhiều cách, từ mở ứng dụng, website, thay đổi cài đặt cho đến cài đặt ứng dụng. Đây chính xác là những gì tôi mong muốn Microsoft đã làm với Copilot (và sau này là Copilot+) – mặc dù việc triển khai thực tế của Windows-MCP vẫn chưa thật sự hoàn hảo.
Thiết lập Windows-MCP: Một thử thách không nhỏ
Chuẩn bị những gì để bắt đầu?
Ngay từ đầu, quá trình thiết lập Windows-MCP khá rắc rối, nhưng nếu bạn tuân thủ đúng tất cả các bước, mọi thứ sẽ ổn. Dự án trên GitHub liệt kê một số yêu cầu cần thiết, bao gồm Python 3.13 trở lên (tại thời điểm viết bài, đây là phiên bản mới nhất), ứng dụng Claude desktop từ Anthropic, trình quản lý gói UV cho Python và công cụ Desktop Extension CLI của Anthropic.
Tuy nhiên, có một vài yêu cầu không được đề cập rõ ràng. Bạn sẽ cần cài đặt Node.js, tốt nhất là có NVM (Node Version Manager) để cài đặt công cụ Desktop Extension. Việc tạo tiện ích mở rộng cũng yêu cầu bạn clone repository GitHub của Windows-MCP bằng lệnh Git, điều này có nghĩa là bạn cũng nên cài đặt Git. Tất nhiên, bạn cũng có thể tải xuống và giải nén repository thủ công, nhưng nếu làm theo các bước được khuyến nghị, bạn sẽ cần thêm một vài công cụ nữa.
Các cửa sổ yêu cầu cài đặt Windows-MCP trên Windows 11
Mặc dù không phải là quá phức tạp, nhưng việc chuẩn bị này mất khá nhiều thời gian để mọi thứ sẵn sàng hoạt động. Sau khi cài đặt đầy đủ, bạn cần tạo tiện ích mở rộng Windows-MCP cho Claude, sau đó tải nó vào ứng dụng Claude desktop. Đến lúc này, bạn đã có thể bắt đầu sử dụng công cụ này.
Màn hình desktop Windows 11 hiển thị cửa sổ Terminal với các lệnh NVM
Điều khiển PC bằng lệnh văn bản: Thứ Copilot nên làm
Sau khi hoàn thành quá trình thiết lập tuy hơi mệt mỏi, bạn có thể sử dụng Claude để điều khiển PC bằng nhiều lệnh văn bản khác nhau. Quá trình này khá minh bạch: khi bạn đưa ra một lệnh, bạn có thể thấy mọi hành động mà Claude đang thực hiện để đạt được kết quả mong muốn, cho dù đó là kiểm tra trạng thái hiện tại của máy, khởi chạy ứng dụng, nhấp vào một nút hay nhập văn bản. Claude cần quyền của bạn để thực hiện từng loại hành động khác nhau, tạo thêm một lớp bảo mật. Mặc dù việc phản hồi các lời nhắc cấp quyền đôi khi có thể làm gián đoạn luồng công việc, nhưng việc luôn cho phép mọi hành động sẽ giúp trải nghiệm liền mạch hơn.
Ứng dụng Claude trên Windows 11 yêu cầu quyền thực hiện tác vụ
Vì tôi đang sử dụng gói miễn phí của Claude, số lượng tương tác bị hạn chế, nhưng tôi đã thử nghiệm một vài tác vụ cơ bản. Tôi đã yêu cầu nó mở và đóng trình duyệt, bao gồm Vivaldi và Edge, mở ứng dụng Máy tính (Calculator), và thậm chí mở các trang web cụ thể. Tôi đặc biệt yêu cầu nó mở XDA trên Vivaldi, và tôi đã theo dõi toàn bộ quá trình: từ mở trình duyệt, chọn thanh địa chỉ, cho đến nhập URL. Claude thậm chí còn cung cấp một bản tóm tắt nhanh về nội dung trên trang.
Vì công cụ này dựa vào một mô hình ngôn ngữ lớn (LLM), bạn có thể làm được nhiều điều hơn nữa thông qua các tương tác cụ thể chỉ bằng cách sử dụng ngôn ngữ tự nhiên. Tuy nhiên, do giới hạn của gói miễn phí, tôi chỉ có thể thử nghiệm một vài chức năng.
Có đáng để đầu tư thời gian không?
Ai thực sự cần công cụ này?
Dù ý tưởng này rất thú vị, tôi vẫn phải tự hỏi liệu có lý do gì để hầu hết mọi người sử dụng nó hay không. Phản hồi của Claude và việc thực hiện từng bước trong một quy trình tốn thời gian hơn đáng kể so với việc bạn tự làm. Tôi chắc chắn rằng điều này phần nào là điều hiển nhiên, nhưng vẫn thật đáng tiếc khi sự khác biệt lại lớn đến vậy. Tôi đã phải ngồi nhìn chằm chằm vào màn hình trong nhiều phút khi Claude tìm cách mở Vivaldi rồi nhập URL của XDA vào thanh địa chỉ, và trong suốt thời gian đó, tôi ước mình có thể tự làm.
Tôi có thể thấy công cụ này hữu ích cho những tác vụ mà bạn có thể không biết cách thực hiện, chẳng hạn như thay đổi độ phân giải màn hình hoặc tắt thông báo, nhưng chỉ dừng lại ở đó.
Trải nghiệm còn nhiều lỗi và chưa ổn định
Ngoài sự chậm chạp, trải nghiệm sử dụng Windows-MCP còn khá nhiều lỗi. Tôi đã gặp một số vấn đề khi sử dụng Windows-MCP, bắt đầu từ việc khi nó mở Vivaldi, nó hoàn toàn bỏ qua tất cả dữ liệu người dùng mà tôi đã có sẵn trong trình duyệt. Hồ sơ người dùng, tài khoản email, cài đặt, lịch sử – mọi thứ đều biến mất. Tôi đã cố gắng tìm hiểu xem liệu nó có cài đặt một phiên bản Vivaldi riêng biệt hay không, nhưng dường như không phải vậy, và chúng vẫn chạy từ cùng một thư mục. Thành thật mà nói, tôi thậm chí không hiểu làm thế nào điều này lại có thể xảy ra.
Có lần, tôi cũng đã thử yêu cầu Claude mở XDA trên Vivaldi hai lần liên tiếp và tôi đã đóng trình duyệt sau lệnh đầu tiên. Tuy nhiên, khi tôi đưa ra lệnh thứ hai, Claude vẫn cho rằng Vivaldi đang mở và cố gắng tương tác với nó. May mắn thay, cuối cùng nó đã nhận ra trình duyệt không còn đó và lặp lại các bước.
Giao diện Claude bên cạnh hai cửa sổ trình duyệt Vivaldi với các profile người dùng khác nhau
Giữa sự chậm chạp của trải nghiệm và những lỗi phát sinh thường xuyên, tôi thấy rằng đây không phải là một trải nghiệm thực sự đáng giá. Với gói Claude trả phí, ít nhất bạn sẽ có các tương tác không giới hạn và có thể sử dụng nó mượt mà hơn, nhưng ngay cả khi đó, tôi không nghĩ đây sẽ là một trải nghiệm tuyệt vời, và chắc chắn không phải là thứ tôi sẵn sàng trả tiền hàng tháng.
Dù chưa hoàn hảo, ý tưởng vẫn đáng giá hơn Copilot
Mặc dù trải nghiệm sử dụng Windows-MCP không mấy dễ chịu, tôi vẫn thấy nó hấp dẫn hơn Copilot của Microsoft. Và nếu có điều gì đó, thì đây là một bài học cho Microsoft, cho thấy những gì đáng lẽ có thể và nên được thực hiện với Copilot. Một trải nghiệm như thế này, được tích hợp sâu hơn vào hệ điều hành và tối ưu hóa để có hiệu suất nhanh hơn, sẽ có ý nghĩa lớn. Thay vào đó, chúng ta lại mắc kẹt với một chatbot được cường điệu hóa, chỉ có thể tìm kiếm web và tạo ra những hình ảnh vô hồn.
Tôi thực sự hy vọng Windows-MCP có thể tiếp tục cải thiện và trở thành một công cụ hữu ích hơn theo thời gian. Hiện tại, tôi không quan tâm đến việc sử dụng nó, nhưng ít nhất thì ý tưởng này thú vị hơn hầu hết những gì Copilot+ có thể làm ở thời điểm hiện tại.
Bạn đã từng thử sử dụng Windows-MCP hay bất kỳ công cụ AI nào để điều khiển PC của mình chưa? Hãy chia sẻ ý kiến và kinh nghiệm của bạn ở phần bình luận dưới đây!
Xem thêm chi tiết tại: Github của Windows-MCP