Contents
Trong thời đại công nghệ hiện nay, việc hô to “Ok Google” hay “Hey Siri” để thay đổi bài nhạc hoặc tắt đèn trong phòng là một trải nghiệm vô cùng thú vị. Tuy nhiên, quá trình tưởng chừng đơn giản này lại được hỗ trợ bởi một mạng lưới công nghệ phức tạp hoạt động phía sau hậu trường.
Mỗi trợ lý ảo lớn trên thị trường đều có một cụm từ kích hoạt để đánh thức trợ lý và bắt đầu cuộc trò chuyện. Nhưng làm thế nào mà các trợ lý ảo biết được bạn đang nói chuyện với chúng?
Công Nghệ Phát Hiện Cụm Từ Hoạt Động Như Thế Nào?
Như đã đề cập, mỗi trợ lý ảo có một “cụm từ kích hoạt” hoặc từ khóa đánh thức mà bạn sử dụng để kích hoạt trợ lý và đưa ra các lệnh tiếp theo. Quá trình phát hiện cụm từ này nhìn chung là giống nhau với mọi trợ lý, ngoại trừ một số khác biệt nhỏ. Tuy nhiên, những khác biệt này có thể tạo ra sự khác biệt lớn giữa việc dễ dàng nói ra lệnh kích hoạt và phải hét lên nhiều lần mà trợ lý vẫn không phản hồi, điều này có thể gây khó chịu, đặc biệt là khi bạn sử dụng trợ lý ảo để giúp bình tĩnh lại.
Robot nhỏ màu cam và bạc ngồi trên sàn thảm với laptop trước mặt
Nhìn chung, hầu hết các loa “thông minh” đều có một mạch nhỏ với nhiệm vụ duy nhất là phát hiện lệnh kích hoạt và sau đó kích hoạt phần cứng còn lại. Phần lớn quá trình xử lý diễn ra trên đám mây, nhưng việc phát hiện cụm từ thì được thực hiện trên thiết bị vì lý do bảo mật quyền riêng tư. Công nghệ phát hiện cụm từ trên điện thoại hoạt động tương tự như vậy.
Chi tiết cụ thể thường được giữ kín, nhưng các hệ thống phát hiện này sử dụng học máy và mạng nơ-ron sâu (DNNs) để huấn luyện các mô hình AI phát hiện giọng nói của bạn và tạo ra một “khóa”. Khóa này sau đó được sử dụng để xác minh khi bạn nói một cụm từ cụ thể, và mọi thứ khác sẽ được gửi lên đám mây để xử lý thêm.
Google Assistant
Các điện thoại hỗ trợ phát hiện “OK Google” thường đi kèm với hệ thống phát hiện từ khóa (KWS) để phát hiện cụm từ và sau đó gửi phần còn lại của truy vấn lên đám mây. Vì các thiết bị di động có công suất tính toán và thời lượng pin hạn chế, các hệ thống này thường không tốt bằng các hệ thống trên loa Google Nest.
Hệ thống KWS trên thiết bị liên tục thu âm từ micro của thiết bị và khởi tạo kết nối với máy chủ khi phát hiện ra cụm từ kích hoạt. Google cũng sử dụng Nhận diện Giọng Nói Tự động theo Ngữ cảnh (ASR) trên máy chủ để cải thiện độ chính xác tổng thể của hệ thống KWS. Bạn có thể đọc thêm về điều này trong bài nghiên cứu của Google [PDF].
Siri
Siri hoạt động tương tự như Google Assistant về mặt phát hiện “Hey Siri”. Apple đã rất cởi mở về cách hệ thống hoạt động, bao gồm một “bộ nhận diện giọng nói rất nhỏ” chạy ở chế độ nền và lắng nghe chỉ hai từ này. Bộ phát hiện này sử dụng DNN để chuyển đổi mẫu âm thanh của giọng nói bạn ghi âm qua từng lần thành một phân phối xác suất trên các âm thanh nói, về cơ bản tạo ra một điểm số tin cậy.
iPhone hoặc Apple Watch của bạn thực hiện điều này bằng cách chuyển đổi giọng nói của bạn thành một luồng mẫu sóng với tốc độ 16.000 mẫu mỗi giây. Sau đó, điều này được cắt giảm thành một chuỗi các khung bao phủ một phổ âm thanh khoảng 0,01 giây. Sau đó, tổng cộng 20 khung này được đưa vào mô hình phát hiện, chuyển đổi các mẫu này thành một xác suất.
Sơ đồ về Siri
Nếu hệ thống xác định với đủ độ tin cậy rằng bạn đã nói “Hey Siri”, Siri sẽ thức dậy và gửi phần còn lại của truy vấn lên đám mây, nơi tiếp tục phân tích và thực hiện hành động bạn yêu cầu.
Tất nhiên, có thêm các biện pháp để đảm bảo hiệu quả sử dụng bộ nhớ và pin. Bộ xử lý Luôn Bật (AOP) của iPhone có quyền truy cập vào micro của thiết bị (trên iPhone 6S và mới hơn) vì lý do này, và một phần nhỏ công suất xử lý của nó được dành riêng để chạy DNN. Apple đi sâu vào toàn bộ hệ thống trên trang web về học máy của mình, machinelearning.apple.
Alexa
Tương tự như Google Assistant và Siri, Alexa cũng không chứa phần lớn sức mạnh xử lý trên bất kỳ loa Echo nào bạn có thể mua. Thay vào đó, các loa sử dụng những gì Amazon gọi là Nhận diện Giọng Nói Tự động (ASR), cơ bản là chuyển đổi lời nói thành văn bản, cho phép hệ thống cơ bản giải thích và hành động theo đó.
ASR tạo thành nền tảng cơ bản của cách hoạt động của Alexa. Một lần nữa, có một hệ thống trên thiết bị lắng nghe các từ kích hoạt, trong trường hợp này là “Alexa”, “Amazon”, “Echo”, hoặc “Computer”, và kích hoạt phần còn lại của hệ thống khi từ kích hoạt được người dùng định sẵn được phát hiện. Bạn thậm chí có thể kích hoạt thiết bị Alexa bằng “Hey Disney” nếu muốn.
Loa Alexa màu trắng trên bàn làm việc
Giống như Google Assistant, bạn có thể huấn luyện mô hình AI cơ bản của Alexa để phát hiện giọng nói của bạn tốt hơn. Quá trình này liên quan đến việc tạo ra một “khóa” cơ bản để so sánh với từ kích hoạt được nói ra, và khi tìm thấy sự khớp, thiết bị sẽ phản hồi tương ứng.
Các Trợ Lý Ảo Có Luôn Lắng Nghe Không?
Như bạn có thể đoán, đúng vậy, chúng luôn lắng nghe. Không có cách nào chúng có thể phát hiện các từ kích hoạt nếu không lắng nghe. Tuy nhiên, bạn không cần phải vứt bỏ tất cả các loa thông minh của mình vì lo ngại về quyền riêng tư ngay lập tức.
Việc lắng nghe mọi thứ người dùng nói, gửi lại máy chủ từ xa và phân tích (hoặc lưu trữ) nó đòi hỏi tài nguyên phần cứng và tài chính khổng lồ đến mức không thực tế từ góc độ thực tiễn. Thêm vào đó là những lo ngại lớn về quyền riêng tư mà các công ty như Google, Apple và Amazon đã phải đối mặt, và ý tưởng này không còn hợp lý.
Điều này cũng ảnh hưởng lớn đến hiệu suất và tuổi thọ pin của điện thoại với các tính năng phát hiện từ kích hoạt, đặc biệt là Google Pixels và iPhones. Nếu điện thoại của bạn liên tục lắng nghe những gì bạn nói và gửi âm thanh đó về máy chủ từ xa, nó sẽ làm giảm tuổi thọ pin và ảnh hưởng đến hiệu suất của thiết bị.
Ai Có Hệ Thống Phát Hiện Cụm Từ Hiệu Quả Nhất Và Tại Sao?
Không dễ để so sánh khách quan xem trợ lý ảo nào có hệ thống phát hiện cụm từ tốt nhất vì chúng đều sử dụng các phiên bản hơi khác nhau của cùng một khái niệm tổng thể. Tuy nhiên, Google dường như có hệ thống phát hiện cụm từ nhất quán hơn nhờ vào sự khởi đầu sớm của Google Assistant so với Siri và Alexa.
Điện thoại hiển thị Google Assistant bên cạnh Google Nest Mini
Mặc dù các ứng dụng sử dụng các mô hình ngôn ngữ lớn (LLMs) như ChatGPT và Bing Chat đã trở nên phổ biến, Google Assistant vẫn duy trì vị trí là một trong những trợ lý ảo phổ biến nhất chỉ vì nó chỉ cách một lần chạm trên mọi thiết bị Android, từ TV thông minh đến hệ thống âm thanh xe hơi và tất nhiên là điện thoại thông minh.
Siri và Alexa cần phải bắt kịp trong lĩnh vực này, nhưng về mặt phát hiện cụm từ, chúng không kém xa. Tuy nhiên, bạn sẽ có cơ hội tốt hơn để đánh thức Google Assistant trên Pixel của mình từ xa hơn là với Siri trên iPhone, mặc dù bạn có thể tăng cường khả năng của Siri với chế độ Super Siri. Vì Alexa chủ yếu được sử dụng trên dòng loa Echo của Amazon, nó có một lợi thế nhỏ ở đây, xét rằng các loa này được thiết kế để có thể nhận diện giọng nói của người dùng.
-
Làm thế nào để cải thiện khả năng phát hiện cụm từ của trợ lý ảo?
- Bạn có thể cải thiện bằng cách nói rõ ràng và chậm rãi, đặt thiết bị ở vị trí thuận lợi, và thường xuyên cập nhật phần mềm.
-
Các trợ lý ảo có lưu trữ dữ liệu giọng nói của tôi không?
- Các công ty như Google, Apple và Amazon có chính sách lưu trữ và sử dụng dữ liệu giọng nói khác nhau, nhưng hầu hết đều cho phép bạn xóa dữ liệu giọng nói của mình.
-
Tại sao Google Assistant lại phổ biến hơn Siri và Alexa?
- Google Assistant phổ biến hơn vì nó được tích hợp sẵn trên hầu hết các thiết bị Android, dễ dàng sử dụng và có khả năng phát hiện cụm từ nhất quán.
-
Làm thế nào để bảo vệ quyền riêng tư khi sử dụng trợ lý ảo?
- Bạn có thể bảo vệ quyền riêng tư bằng cách tắt micro khi không sử dụng, xóa dữ liệu giọng nói định kỳ và đọc kỹ chính sách quyền riêng tư của các công ty.
-
Có thể sử dụng trợ lý ảo để điều khiển các thiết bị thông minh khác không?
- Đúng vậy, các trợ lý ảo như Google Assistant, Siri và Alexa đều có thể điều khiển nhiều thiết bị thông minh khác nhau trong nhà.
-
Tại sao việc phát hiện cụm từ được thực hiện trên thiết bị thay vì trên đám mây?
- Việc phát hiện cụm từ được thực hiện trên thiết bị để bảo vệ quyền riêng tư và giảm thiểu việc gửi dữ liệu giọng nói lên đám mây không cần thiết.
-
Có thể thay đổi cụm từ kích hoạt của trợ lý ảo không?
- Một số trợ lý ảo như Alexa cho phép bạn thay đổi cụm từ kích hoạt, trong khi Google Assistant và Siri thì không.
Tạp Chí Mobile luôn cập nhật những thông tin mới nhất về công nghệ và thiết bị di động. Để biết thêm thông tin về công nghệ, hãy truy cập Tech.
Trí Tuệ Nhân Tạo Vừa Đáng Sợ Vừa Tiện Lợi
Việc gọi trợ lý AI của bạn bằng giọng nói có thể rất tiện lợi. Đối với một tính năng tích hợp liền mạch vào cuộc sống của chúng ta, có rất nhiều điều diễn ra phía sau hậu trường mà hầu hết chúng ta thường không nghĩ đến.
Tuy nhiên, sự tiện lợi này cũng mang lại cảm giác không thoải mái khi thiết bị của bạn luôn lắng nghe những gì bạn nói. Cho đến nay, các bộ nhận diện giọng nói trên thiết bị và các từ kích hoạt đứng giữa những gì trợ lý ảo của bạn nghe thấy và những gì bạn nói.