Tạp Chí Mobile
  • Home
  • Iphone
  • Windows
  • Android
  • Tech
  • Security
  • Mẹo
  • Hướng Dẫn
  • Entertainment
No Result
View All Result
SUBSCRIBE
Tạp Chí Mobile
  • Home
  • Iphone
  • Windows
  • Android
  • Tech
  • Security
  • Mẹo
  • Hướng Dẫn
  • Entertainment
No Result
View All Result
Tạp Chí Mobile
No Result
View All Result
Home Tech

Công Nghệ Phát Hiện Cụm Từ Trong Trợ Lý Ảo: Bí Mật Đằng Sau “Ok Google” và “Hey Siri”

admin by admin
May 3, 2025
in Tech
0
Robot nhỏ màu cam và bạc ngồi trên sàn thảm với laptop trước mặt

Robot nhỏ màu cam và bạc ngồi trên sàn thảm với laptop trước mặt

74
SHARES
1.2k
VIEWS
Share on FacebookShare on Twitter

You might also like

Lốp Xe Ảnh Hưởng Thế Nào Đến Quãng Đường Đi Của Xe Điện?

Cập Nhật Mới Nhất Của Microsoft Copilot: Tăng Cường Trải Nghiệm Người Dùng

Khi Nào Nên Nâng Cấp Điện Thoại Thông Minh?

Contents

  • Công Nghệ Phát Hiện Cụm Từ Hoạt Động Như Thế Nào?
  • Google Assistant
  • Siri
  • Alexa
  • Các Trợ Lý Ảo Có Luôn Lắng Nghe Không?
  • Ai Có Hệ Thống Phát Hiện Cụm Từ Hiệu Quả Nhất Và Tại Sao?
  • Trí Tuệ Nhân Tạo Vừa Đáng Sợ Vừa Tiện Lợi

Trong thời đại công nghệ hiện nay, việc hô to “Ok Google” hay “Hey Siri” để thay đổi bài nhạc hoặc tắt đèn trong phòng là một trải nghiệm vô cùng thú vị. Tuy nhiên, quá trình tưởng chừng đơn giản này lại được hỗ trợ bởi một mạng lưới công nghệ phức tạp hoạt động phía sau hậu trường.

Mỗi trợ lý ảo lớn trên thị trường đều có một cụm từ kích hoạt để đánh thức trợ lý và bắt đầu cuộc trò chuyện. Nhưng làm thế nào mà các trợ lý ảo biết được bạn đang nói chuyện với chúng?

Công Nghệ Phát Hiện Cụm Từ Hoạt Động Như Thế Nào?

Như đã đề cập, mỗi trợ lý ảo có một “cụm từ kích hoạt” hoặc từ khóa đánh thức mà bạn sử dụng để kích hoạt trợ lý và đưa ra các lệnh tiếp theo. Quá trình phát hiện cụm từ này nhìn chung là giống nhau với mọi trợ lý, ngoại trừ một số khác biệt nhỏ. Tuy nhiên, những khác biệt này có thể tạo ra sự khác biệt lớn giữa việc dễ dàng nói ra lệnh kích hoạt và phải hét lên nhiều lần mà trợ lý vẫn không phản hồi, điều này có thể gây khó chịu, đặc biệt là khi bạn sử dụng trợ lý ảo để giúp bình tĩnh lại.

Robot nhỏ màu cam và bạc ngồi trên sàn thảm với laptop trước mặtRobot nhỏ màu cam và bạc ngồi trên sàn thảm với laptop trước mặt

Read more: Sử Dụng Google Maps Để Lên Kế Hoạch Cho Đêm Halloween

Nhìn chung, hầu hết các loa “thông minh” đều có một mạch nhỏ với nhiệm vụ duy nhất là phát hiện lệnh kích hoạt và sau đó kích hoạt phần cứng còn lại. Phần lớn quá trình xử lý diễn ra trên đám mây, nhưng việc phát hiện cụm từ thì được thực hiện trên thiết bị vì lý do bảo mật quyền riêng tư. Công nghệ phát hiện cụm từ trên điện thoại hoạt động tương tự như vậy.

Chi tiết cụ thể thường được giữ kín, nhưng các hệ thống phát hiện này sử dụng học máy và mạng nơ-ron sâu (DNNs) để huấn luyện các mô hình AI phát hiện giọng nói của bạn và tạo ra một “khóa”. Khóa này sau đó được sử dụng để xác minh khi bạn nói một cụm từ cụ thể, và mọi thứ khác sẽ được gửi lên đám mây để xử lý thêm.

Google Assistant

Các điện thoại hỗ trợ phát hiện “OK Google” thường đi kèm với hệ thống phát hiện từ khóa (KWS) để phát hiện cụm từ và sau đó gửi phần còn lại của truy vấn lên đám mây. Vì các thiết bị di động có công suất tính toán và thời lượng pin hạn chế, các hệ thống này thường không tốt bằng các hệ thống trên loa Google Nest.

Read more: Khám Phá Cách Suy Luận của AI với Gemini 2.0 Flash Thinking

Hệ thống KWS trên thiết bị liên tục thu âm từ micro của thiết bị và khởi tạo kết nối với máy chủ khi phát hiện ra cụm từ kích hoạt. Google cũng sử dụng Nhận diện Giọng Nói Tự động theo Ngữ cảnh (ASR) trên máy chủ để cải thiện độ chính xác tổng thể của hệ thống KWS. Bạn có thể đọc thêm về điều này trong bài nghiên cứu của Google [PDF].

Siri

Siri hoạt động tương tự như Google Assistant về mặt phát hiện “Hey Siri”. Apple đã rất cởi mở về cách hệ thống hoạt động, bao gồm một “bộ nhận diện giọng nói rất nhỏ” chạy ở chế độ nền và lắng nghe chỉ hai từ này. Bộ phát hiện này sử dụng DNN để chuyển đổi mẫu âm thanh của giọng nói bạn ghi âm qua từng lần thành một phân phối xác suất trên các âm thanh nói, về cơ bản tạo ra một điểm số tin cậy.

iPhone hoặc Apple Watch của bạn thực hiện điều này bằng cách chuyển đổi giọng nói của bạn thành một luồng mẫu sóng với tốc độ 16.000 mẫu mỗi giây. Sau đó, điều này được cắt giảm thành một chuỗi các khung bao phủ một phổ âm thanh khoảng 0,01 giây. Sau đó, tổng cộng 20 khung này được đưa vào mô hình phát hiện, chuyển đổi các mẫu này thành một xác suất.

Read more: Cách Sử Dụng Google Maps Riêng Tư: Hướng Dẫn Chi Tiết

Sơ đồ về SiriSơ đồ về Siri

Nếu hệ thống xác định với đủ độ tin cậy rằng bạn đã nói “Hey Siri”, Siri sẽ thức dậy và gửi phần còn lại của truy vấn lên đám mây, nơi tiếp tục phân tích và thực hiện hành động bạn yêu cầu.

Tất nhiên, có thêm các biện pháp để đảm bảo hiệu quả sử dụng bộ nhớ và pin. Bộ xử lý Luôn Bật (AOP) của iPhone có quyền truy cập vào micro của thiết bị (trên iPhone 6S và mới hơn) vì lý do này, và một phần nhỏ công suất xử lý của nó được dành riêng để chạy DNN. Apple đi sâu vào toàn bộ hệ thống trên trang web về học máy của mình, machinelearning.apple.

Read more: Lốp Xe Ảnh Hưởng Thế Nào Đến Quãng Đường Đi Của Xe Điện?

Alexa

Tương tự như Google Assistant và Siri, Alexa cũng không chứa phần lớn sức mạnh xử lý trên bất kỳ loa Echo nào bạn có thể mua. Thay vào đó, các loa sử dụng những gì Amazon gọi là Nhận diện Giọng Nói Tự động (ASR), cơ bản là chuyển đổi lời nói thành văn bản, cho phép hệ thống cơ bản giải thích và hành động theo đó.

ASR tạo thành nền tảng cơ bản của cách hoạt động của Alexa. Một lần nữa, có một hệ thống trên thiết bị lắng nghe các từ kích hoạt, trong trường hợp này là “Alexa”, “Amazon”, “Echo”, hoặc “Computer”, và kích hoạt phần còn lại của hệ thống khi từ kích hoạt được người dùng định sẵn được phát hiện. Bạn thậm chí có thể kích hoạt thiết bị Alexa bằng “Hey Disney” nếu muốn.

Loa Alexa màu trắng trên bàn làm việcLoa Alexa màu trắng trên bàn làm việc

Read more: Bàn Phím Alice: Giải Pháp Thoải Mái Cho Người Dùng Máy Tính

Giống như Google Assistant, bạn có thể huấn luyện mô hình AI cơ bản của Alexa để phát hiện giọng nói của bạn tốt hơn. Quá trình này liên quan đến việc tạo ra một “khóa” cơ bản để so sánh với từ kích hoạt được nói ra, và khi tìm thấy sự khớp, thiết bị sẽ phản hồi tương ứng.

Các Trợ Lý Ảo Có Luôn Lắng Nghe Không?

Như bạn có thể đoán, đúng vậy, chúng luôn lắng nghe. Không có cách nào chúng có thể phát hiện các từ kích hoạt nếu không lắng nghe. Tuy nhiên, bạn không cần phải vứt bỏ tất cả các loa thông minh của mình vì lo ngại về quyền riêng tư ngay lập tức.

Việc lắng nghe mọi thứ người dùng nói, gửi lại máy chủ từ xa và phân tích (hoặc lưu trữ) nó đòi hỏi tài nguyên phần cứng và tài chính khổng lồ đến mức không thực tế từ góc độ thực tiễn. Thêm vào đó là những lo ngại lớn về quyền riêng tư mà các công ty như Google, Apple và Amazon đã phải đối mặt, và ý tưởng này không còn hợp lý.

Read more: Hiện Tượng Burn-in Trên Màn Hình OLED và Cách Giảm Thiểu

Điều này cũng ảnh hưởng lớn đến hiệu suất và tuổi thọ pin của điện thoại với các tính năng phát hiện từ kích hoạt, đặc biệt là Google Pixels và iPhones. Nếu điện thoại của bạn liên tục lắng nghe những gì bạn nói và gửi âm thanh đó về máy chủ từ xa, nó sẽ làm giảm tuổi thọ pin và ảnh hưởng đến hiệu suất của thiết bị.

Ai Có Hệ Thống Phát Hiện Cụm Từ Hiệu Quả Nhất Và Tại Sao?

Không dễ để so sánh khách quan xem trợ lý ảo nào có hệ thống phát hiện cụm từ tốt nhất vì chúng đều sử dụng các phiên bản hơi khác nhau của cùng một khái niệm tổng thể. Tuy nhiên, Google dường như có hệ thống phát hiện cụm từ nhất quán hơn nhờ vào sự khởi đầu sớm của Google Assistant so với Siri và Alexa.

Điện thoại hiển thị Google Assistant bên cạnh Google Nest MiniĐiện thoại hiển thị Google Assistant bên cạnh Google Nest Mini

Read more: So Sánh SSD và HDD: Sự Khác Biệt và Lựa Chọn Tối Ưu

Mặc dù các ứng dụng sử dụng các mô hình ngôn ngữ lớn (LLMs) như ChatGPT và Bing Chat đã trở nên phổ biến, Google Assistant vẫn duy trì vị trí là một trong những trợ lý ảo phổ biến nhất chỉ vì nó chỉ cách một lần chạm trên mọi thiết bị Android, từ TV thông minh đến hệ thống âm thanh xe hơi và tất nhiên là điện thoại thông minh.

Siri và Alexa cần phải bắt kịp trong lĩnh vực này, nhưng về mặt phát hiện cụm từ, chúng không kém xa. Tuy nhiên, bạn sẽ có cơ hội tốt hơn để đánh thức Google Assistant trên Pixel của mình từ xa hơn là với Siri trên iPhone, mặc dù bạn có thể tăng cường khả năng của Siri với chế độ Super Siri. Vì Alexa chủ yếu được sử dụng trên dòng loa Echo của Amazon, nó có một lợi thế nhỏ ở đây, xét rằng các loa này được thiết kế để có thể nhận diện giọng nói của người dùng.

  1. Làm thế nào để cải thiện khả năng phát hiện cụm từ của trợ lý ảo?

    • Bạn có thể cải thiện bằng cách nói rõ ràng và chậm rãi, đặt thiết bị ở vị trí thuận lợi, và thường xuyên cập nhật phần mềm.
  2. Các trợ lý ảo có lưu trữ dữ liệu giọng nói của tôi không?

    • Các công ty như Google, Apple và Amazon có chính sách lưu trữ và sử dụng dữ liệu giọng nói khác nhau, nhưng hầu hết đều cho phép bạn xóa dữ liệu giọng nói của mình.
  3. Tại sao Google Assistant lại phổ biến hơn Siri và Alexa?

    • Google Assistant phổ biến hơn vì nó được tích hợp sẵn trên hầu hết các thiết bị Android, dễ dàng sử dụng và có khả năng phát hiện cụm từ nhất quán.
  4. Làm thế nào để bảo vệ quyền riêng tư khi sử dụng trợ lý ảo?

    • Bạn có thể bảo vệ quyền riêng tư bằng cách tắt micro khi không sử dụng, xóa dữ liệu giọng nói định kỳ và đọc kỹ chính sách quyền riêng tư của các công ty.
  5. Có thể sử dụng trợ lý ảo để điều khiển các thiết bị thông minh khác không?

    • Đúng vậy, các trợ lý ảo như Google Assistant, Siri và Alexa đều có thể điều khiển nhiều thiết bị thông minh khác nhau trong nhà.
  6. Tại sao việc phát hiện cụm từ được thực hiện trên thiết bị thay vì trên đám mây?

    • Việc phát hiện cụm từ được thực hiện trên thiết bị để bảo vệ quyền riêng tư và giảm thiểu việc gửi dữ liệu giọng nói lên đám mây không cần thiết.
  7. Có thể thay đổi cụm từ kích hoạt của trợ lý ảo không?

    • Một số trợ lý ảo như Alexa cho phép bạn thay đổi cụm từ kích hoạt, trong khi Google Assistant và Siri thì không.

Tạp Chí Mobile luôn cập nhật những thông tin mới nhất về công nghệ và thiết bị di động. Để biết thêm thông tin về công nghệ, hãy truy cập Tech.

Trí Tuệ Nhân Tạo Vừa Đáng Sợ Vừa Tiện Lợi

Việc gọi trợ lý AI của bạn bằng giọng nói có thể rất tiện lợi. Đối với một tính năng tích hợp liền mạch vào cuộc sống của chúng ta, có rất nhiều điều diễn ra phía sau hậu trường mà hầu hết chúng ta thường không nghĩ đến.

Tuy nhiên, sự tiện lợi này cũng mang lại cảm giác không thoải mái khi thiết bị của bạn luôn lắng nghe những gì bạn nói. Cho đến nay, các bộ nhận diện giọng nói trên thiết bị và các từ kích hoạt đứng giữa những gì trợ lý ảo của bạn nghe thấy và những gì bạn nói.

Share30Tweet19
admin

admin

Chuyên trang tin tức review về điện thoại di động, các sản phẩm công nghệ, game và thủ thuật.

Recommended For You

Lốp Xe Ảnh Hưởng Thế Nào Đến Quãng Đường Đi Của Xe Điện?

by admin
June 20, 2025
0
Hình ảnh lốp xe ô tô

Lốp xe đóng vai trò quan trọng trong việc quyết định quãng đường đi của xe điện. Các yếu tố như thiết kế lốp, loại lốp và độ...

Read moreDetails

Cập Nhật Mới Nhất Của Microsoft Copilot: Tăng Cường Trải Nghiệm Người Dùng

by admin
June 19, 2025
0
Giao diện băng chuyền gợi ý của Microsoft Copilot

Microsoft đang đẩy mạnh công cụ AI Copilot hơn bao giờ hết, và như một phần của nỗ lực này, họ thường xuyên thêm các tính năng mới...

Read moreDetails

Khi Nào Nên Nâng Cấp Điện Thoại Thông Minh?

by admin
June 19, 2025
0
Người dùng cầm điện thoại Samsung Galaxy

Khi mua một chiếc điện thoại mới, chúng ta thường tìm kiếm các ưu đãi tốt và kiểm tra thông số kỹ thuật, tính năng để xem liệu...

Read moreDetails

Cách Truy Tìm Nguồn Gốc Email: Hướng Dẫn Chi Tiết và Lý Do Nên Làm

by admin
June 19, 2025
0
Tiêu đề email Gmail phiên bản dài

Trong thời đại công nghệ hiện nay, việc nhận được email có thể là một phần không thể thiếu của cuộc sống hàng ngày. Tuy nhiên, không phải...

Read moreDetails

Poe: Nền Tảng Tập Hợp Nhiều Chatbot AI và Mô Hình Ngôn Ngữ

by admin
June 19, 2025
0
Giao diện chatbot Poe's Assistant

Poe là một nền tảng giúp bạn truy cập vào nhiều chatbot AI và mô hình ngôn ngữ khác nhau chỉ trong một nơi, mang lại sự tiện...

Read moreDetails
Next Post
Webcam HyperX Vision S được cắm vào phía sau

Lý Do Nên Sử Dụng Webcam Ngoài Thay Vì Webcam Tích Hợp

Leave a Reply

Your email address will not be published. Required fields are marked *

Related News

Menu kích thước cọ trong Procreate.

Cách Khắc Phục Các Vấn Đề Thường Gặp Trong Procreate

May 8, 2025
Thông báo pin yếu của AirTag

Hướng Dẫn Thay Pin Cho AirTag của Apple

June 16, 2025
Máy khuếch tán sương mù lạnh

Cách Hiện Đại Hóa Các Thực Hành Chăm Sóc Sức Khỏe Cổ Xưa Với Công Nghệ Tiên Tiến

June 5, 2025

Browse by Category

  • Android
  • Hướng Dẫn
  • Iphone
  • Mẹo
  • News
  • Security
  • Tech
  • Windows
Tạp Chí Mobile

Tạp Chí Mobile

Chuyên trang tin tức review về điện thoại di động, các sản phẩm công nghệ, game và thủ thuật.

CATEGORIES

  • Android
  • Hướng Dẫn
  • Iphone
  • Mẹo
  • News
  • Security
  • Tech
  • Windows

© 2025 Tapchimobile.org Chuyên trang thông tin công nghệ.

No Result
View All Result
  • Home
  • Iphone
  • Windows
  • Android
  • Tech
  • Security
  • Mẹo
  • Hướng Dẫn
  • Entertainment

© 2025 Tapchimobile.org Chuyên trang thông tin công nghệ.