Cách Bảo Vệ Dữ Liệu Cá Nhân Khỏi Việc Sử Dụng Để Đào Tạo AI Trên Mạng Xã Hội

Contents

Các Nền Tảng Mạng Xã Hội Đạt Được Thỏa Thuận Với Các Công Ty AI
Bạn Có Thể Ngăn Các Nền Tảng Bán Dữ Liệu Mạng Xã Hội Của Bạn Để Đào Tạo AI Không?
Kết Luận

Trong thời đại số hóa, việc các nền tảng mạng xã hội như Meta, Reddit, Tumblr, và WordPress.com bán dữ liệu người dùng cho các công ty AI để đào tạo các mô hình AI sinh ra đã trở thành một vấn đề gây tranh cãi. Dữ liệu cá nhân của bạn có thể đang được sử dụng để đào tạo các mô hình AI mà bạn không hề hay biết. Vậy làm thế nào để bạn có thể bảo vệ dữ liệu của mình?

Các Nền Tảng Mạng Xã Hội Đạt Được Thỏa Thuận Với Các Công Ty AI

Việc sử dụng dữ liệu từ mạng xã hội để đào tạo các mô hình AI sinh ra đã gây ra nhiều tranh cãi, nhưng điều này không ngăn cản các công ty mạng xã hội chia sẻ dữ liệu người dùng. Meta đã sử dụng dữ liệu mạng xã hội để đào tạo các tính năng AI sinh ra được công bố tại Meta Connect năm 2023, bao gồm Meta AI và các tính năng như tạo nhãn dán AI trên WhatsApp.

Mike Clark, Giám đốc Quản lý Sản phẩm tại Meta, đã tuyên bố trong một bài đăng trên Meta Newsroom:

“Các bài đăng được chia sẻ công khai từ Instagram và Facebook, bao gồm cả ảnh và văn bản, đã được sử dụng để đào tạo các mô hình AI sinh ra nằm sau các tính năng mà chúng tôi đã công bố tại Connect.”

Xu hướng này không có dấu hiệu chậm lại vào năm 2025. Theo Reuters, Reddit đã đạt được thỏa thuận với Google để cung cấp nội dung của nền tảng mạng xã hội này cho việc đào tạo các mô hình AI.

Đơn đăng ký S-1 của Reddit cho IPO của họ, được nộp vào ngày 22 tháng 2 năm 2024, xác nhận rằng công ty đang khám phá các thỏa thuận cấp phép. Đơn đăng ký nêu rõ:

“Dữ liệu của Reddit là một phần nền tảng trong việc xây dựng công nghệ AI hiện tại và nhiều mô hình ngôn ngữ lớn. Chúng tôi tin rằng kho dữ liệu đối thoại và kiến thức khổng lồ của Reddit sẽ tiếp tục đóng vai trò trong việc đào tạo và cải thiện các mô hình ngôn ngữ lớn.”

Nó chỉ định rằng Reddit đang “ở giai đoạn đầu của việc cho phép các bên thứ ba cấp phép truy cập để tìm kiếm, phân tích và hiển thị dữ liệu lịch sử và thời gian thực từ nền tảng của chúng tôi” để đào tạo các mô hình ngôn ngữ lớn.

Và trong khi Meta và Reddit là những cái tên lớn nhất trong mạng xã hội, họ không phải là những nền tảng duy nhất sử dụng dữ liệu mạng xã hội để đào tạo AI. Theo một báo cáo của 404 Media, Tumblr và WordPress.com đang chuẩn bị bán dữ liệu người dùng cho Midjourney và OpenAI.

Bạn Có Thể Ngăn Các Nền Tảng Bán Dữ Liệu Mạng Xã Hội Của Bạn Để Đào Tạo AI Không?

Nếu bạn sử dụng Facebook, Instagram, Reddit, Tumblr, hoặc WordPress.com, rất có thể nội dung công khai của bạn đã được sử dụng trong việc đào tạo các mô hình ngôn ngữ lớn.

Ví dụ, nếu bạn sử dụng công cụ tìm kiếm của Washington Post để xem các trang web nào đã được bao gồm trong tập dữ liệu C4 của Google, được sử dụng như một phần của quá trình đào tạo Bard, bạn sẽ thấy rằng Reddit.com chiếm 7,9 triệu token.

Tumblr.com chiếm 1,6 triệu token. Trang web nhỏ của tôi, sử dụng WordPress.com, đã chiếm 14.000 token — vì vậy các blog cá nhân nhỏ có thể đã được bao gồm trong tập dữ liệu.

Với các thỏa thuận đang diễn ra giữa các công ty AI và các công ty mạng xã hội, các thỏa thuận cấp phép sẽ có nghĩa là dữ liệu này sẽ được bán chủ động thay vì chỉ bị cào từ web.

Nhưng khi nói đến việc xử lý trong tương lai, bạn có thể làm gì? Meta đã giới thiệu một mẫu đơn cho quyền của chủ thể dữ liệu AI sinh ra cho phép bạn phản đối hoặc hạn chế việc xử lý dữ liệu cá nhân của bạn từ các bên thứ ba để đào tạo các mô hình AI sinh ra của Meta.

Đáng chú ý, tùy chọn này không cho phép bạn phản đối việc Meta xử lý dữ liệu của bạn cho việc đào tạo AI sinh ra của chính họ. Hơn nữa, khi tôi gửi vé để phản đối việc sử dụng dữ liệu cá nhân của mình bằng mẫu đơn này, vé hỗ trợ yêu cầu tôi chứng minh rằng thông tin cá nhân của tôi đã xuất hiện trong kết quả AI sinh ra của Meta.

Phản hồi hỗ trợ từ Meta

Tumblr cũng đã giới thiệu một tùy chọn để từ chối chia sẻ nội dung của blog công khai của bạn với các bên thứ ba bằng cách sử dụng cài đặt blog của bạn. Bạn có thể tìm thấy nó trong cài đặt của mình bằng cách nhấp vào blog của bạn và cuộn xuống Cài đặt Hiển thị. Sau đó chọn Ngăn chặn chia sẻ bên thứ ba cho blog của bạn.

Khi nói đến một nền tảng như Instagram, bạn có thể thử chuyển tài khoản Instagram của mình sang chế độ riêng tư để ngăn việc sử dụng dữ liệu của bạn. Điều này không đảm bảo rằng dữ liệu của bạn sẽ không bị sử dụng, nhưng vì việc cào dữ liệu cho các mô hình ngôn ngữ lớn dường như tập trung vào dữ liệu công khai, đây có thể là một biện pháp bảo vệ tiềm năng.

Bạn cũng có thể chuyển tài khoản X (Twitter) của mình sang chế độ riêng tư, nhưng một lần nữa, điều này chỉ là một biện pháp bảo vệ tiềm năng và không đảm bảo rằng dữ liệu của bạn vẫn được riêng tư.

Một tuồn bố chung của các ủy ban thông tin quốc gia và các chuyên gia trên toàn thế giới cũng đã đề xuất một số hành động cho cá nhân muốn giảm thiểu rủi ro về quyền riêng tư từ việc cào dữ liệu của các công ty AI. Lời khuyên bao gồm:

Đọc các điều khoản và chính sách quyền riêng tư của một trang web để xem nó chia sẻ thông tin cá nhân của bạn như thế nào.
Hạn chế thông tin mà bạn đăng trực tuyến, đặc biệt là thông tin nhạy cảm.
Quản lý cài đặt quyền riêng tư của bạn.
Suy nghĩ dài hạn về thông tin mà bạn chia sẻ trực tuyến.
Liên hệ với công ty mạng xã hội hoặc trang web nếu bạn nghĩ rằng dữ liệu của bạn đã bị cào không đúng cách. Nếu bạn không hài lòng với phản hồi của họ, hãy nộp đơn khiếu nại với cơ quan bảo vệ dữ liệu có liên quan của bạn.

Bạn cũng có thể xóa một số thông tin trực tuyến nếu bạn không thoải mái với việc các bên thứ ba truy cập nó, mặc dù thông tin công khai trên hồ sơ của bạn có thể đã bị cào.

Thật không may, chúng ta với tư cách là người dùng bình thường chỉ có thể làm được đến mức nào đó để bảo vệ dữ liệu của mình khỏi các công ty AI. Sự kiểm soát thực sự đối với thông tin này có lẽ chỉ có thể đến với sự giúp đỡ của các nhà quản lý.

Dữ liệu mạng xã hội của tôi có thể được sử dụng để đào tạo AI như thế nào?
Dữ liệu mạng xã hội của bạn, bao gồm các bài đăng, ảnh và bình luận công khai, có thể được sử dụng để đào tạo các mô hình AI sinh ra. Các công ty AI mua dữ liệu này từ các nền tảng mạng xã hội để cải thiện khả năng tạo nội dung của các mô hình của họ.
Tôi có thể làm gì để bảo vệ dữ liệu của mình khỏi bị sử dụng để đào tạo AI?
Bạn có thể điều chỉnh cài đặt quyền riêng tư của mình, chuyển tài khoản sang chế độ riêng tư, và hạn chế thông tin cá nhân mà bạn đăng trực tuyến. Ngoài ra, bạn có thể từ chối chia sẻ dữ liệu của mình với các bên thứ ba nếu nền tảng mạng xã hội cho phép.
Liệu việc chuyển tài khoản sang chế độ riêng tư có đảm bảo dữ liệu của tôi không bị sử dụng không?
Không, việc chuyển tài khoản sang chế độ riêng tư không đảm bảo rằng dữ liệu của bạn sẽ không bị sử dụng, nhưng nó có thể giảm thiểu rủi ro vì các công ty AI thường tập trung vào dữ liệu công khai.
Tôi nên làm gì nếu tôi nghĩ rằng dữ liệu của mình đã bị cào không đúng cách?
Bạn nên liên hệ với công ty mạng xã hội hoặc trang web nơi bạn nghĩ rằng dữ liệu của mình đã bị cào. Nếu bạn không hài lòng với phản hồi của họ, bạn có thể nộp đơn khiếu nại với cơ quan bảo vệ dữ liệu có liên quan.
Có cách nào để xóa dữ liệu của tôi khỏi các mô hình AI đã được đào tạo không?
Hiện tại, không có cách nào để xóa dữ liệu của bạn khỏi các mô hình AI đã được đào tạo. Tuy nhiên, bạn có thể xóa thông tin công khai trên hồ sơ của mình để ngăn chặn việc sử dụng dữ liệu trong tương lai.
Các nhà quản lý có thể làm gì để bảo vệ dữ liệu của người dùng khỏi bị sử dụng để đào tạo AI?
Các nhà quản lý có thể ban hành các quy định và luật pháp để bảo vệ quyền riêng tư của người dùng, yêu cầu các công ty mạng xã hội và AI phải minh bạch hơn về cách họ sử dụng dữ liệu và cung cấp cho người dùng quyền kiểm soát nhiều hơn đối với dữ liệu của họ.
Tôi có thể theo dõi các cập nhật về quyền riêng tư từ các nền tảng mạng xã hội ở đâu?
Bạn có thể theo dõi các cập nhật về quyền riêng tư từ các nền tảng mạng xã hội thông qua các blog chính thức, trang tin tức và các thông báo qua email từ các nền tảng này.

Kết Luận

Việc bảo vệ dữ liệu cá nhân của bạn trên mạng xã hội trong bối cảnh các công ty AI đang sử dụng dữ liệu này để đào tạo các mô hình AI sinh ra là một thách thức lớn. Tuy nhiên, bằng cách điều chỉnh cài đặt quyền riêng tư, lựa chọn từ chối chia sẻ và cẩn thận với những gì bạn đăng trực tuyến, bạn có thể giảm thiểu rủi ro. Hãy tiếp tục theo dõi các cập nhật về quyền riêng tư từ các nền tảng mạng xã hội và không ngần ngại liên hệ với họ nếu bạn cảm thấy quyền riêng tư của mình bị xâm phạm. Để biết thêm thông tin và hướng dẫn chi tiết, bạn có thể truy cập trang chủ của Tạp Chí Mobile.

Hãy nhớ rằng, việc bảo vệ dữ liệu cá nhân là một quá trình liên tục và đòi hỏi sự chú ý và hành động từ phía bạn. Để tìm hiểu thêm về các biện pháp bảo mật khác, hãy truy cập trang Security của Tạp Chí Mobile.