Contents
Trong thời đại công nghệ số, trí tuệ nhân tạo (AI) đang ngày càng trở nên quan trọng và ảnh hưởng đến mọi mặt của cuộc sống. Tuy nhiên, để AI tiếp tục phát triển và mang lại giá trị, việc cung cấp dữ liệu chất lượng cao là một thách thức không nhỏ. Bài viết này sẽ đi sâu vào các vấn đề liên quan đến dữ liệu cho AI, từ nguy cơ thiếu hụt dữ liệu chất lượng cao đến các giải pháp tiềm năng như dữ liệu tổng hợp và nhận diện giọng nói.
Dữ Liệu Chất Lượng Cao Đang Dần Cạn Kiệt
Theo nghiên cứu từ viện nghiên cứu AI Epoch, dữ liệu chất lượng cao mà AI sử dụng để đào tạo có thể cạn kiệt vào năm 2026. Tuy nhiên, từ “có thể” ở đây rất quan trọng vì lượng dữ liệu được thêm vào internet hàng năm đang tăng lên. Dù vậy, việc dữ liệu chất lượng cao sẽ hết vào một thời điểm nào đó là điều không thể tránh khỏi.
Hàng năm, khoảng 147 zettabyte dữ liệu được thêm vào mạng internet, theo Exploding Topics. Một zettabyte tương đương với 1,000,000,000,000,000,000,000 bit dữ liệu, tương đương với hơn 30 tỷ bộ phim 4K. Đây là một lượng thông tin khổng lồ mà AI có thể khai thác, nhưng AI tiêu thụ dữ liệu nhanh hơn so với tốc độ con người tạo ra.
AI Có Thể Quên Dữ Liệu Chất Lượng Thấp
Không phải toàn bộ 147 zettabyte dữ liệu đó đều là dữ liệu chất lượng cao. Reuters đã đưa tin rằng Photobucket, một trong những kho lưu trữ hình ảnh lớn nhất thế giới, đang đàm phán để cấp phép thư viện hình ảnh của mình cho các công ty đào tạo AI. Dữ liệu hình ảnh đã được sử dụng để đào tạo các hệ thống như DALL-E và Midjourney, nhưng ngay cả dữ liệu này cũng có thể cạn kiệt vào năm 2060.
Smartphone hiển thị logo DALL-E 3, đặt trên nền các máy chủ dữ liệu và mã số kỹ thuật số, biểu tượng cho công nghệ AI.
Photobucket không phải là trường hợp duy nhất. Vào tháng 2 năm 2024, Google đã ký thỏa thuận với Reddit, cho phép gã khổng lồ tìm kiếm sử dụng dữ liệu người dùng của nền tảng mạng xã hội này để đào tạo AI. Các nền tảng mạng xã hội khác cũng cung cấp dữ liệu người dùng cho mục đích đào tạo AI; một số sử dụng dữ liệu này để đào tạo mô hình AI nội bộ, chẳng hạn như Llama của Meta.
Tuy nhiên, trong khi một số thông tin có thể được rút ra từ dữ liệu chất lượng thấp, Microsoft đang phát triển phương pháp cho phép AI chọn lọc “quên” dữ liệu. Phương pháp này chủ yếu được sử dụng để giải quyết các vấn đề về quyền sở hữu trí tuệ, nhưng cũng có thể giúp AI quên những gì đã học từ các bộ dữ liệu chất lượng thấp.
Nhận Diện Giọng Nói Mở Rộng Nguồn Dữ Liệu Video và Podcast
Dữ liệu được cung cấp cho các công cụ AI cho đến nay chủ yếu là văn bản và hình ảnh, nhưng điều này sẽ thay đổi với sự phát triển của phần mềm nhận diện giọng nói. OpenAI đã phát triển mạng lưới thần kinh nhận diện giọng nói tự động (ASR) mã nguồn mở, Whisper, sử dụng 680,000 giờ dữ liệu đa ngôn ngữ và đa nhiệm vụ. Sau đó, OpenAI đã cung cấp hơn một triệu giờ thông tin từ các video trên YouTube vào mô hình ngôn ngữ lớn của mình, GPT-4.
Người phụ nữ thổi confetti ra khỏi cuốn sách vừa đọc xong
Theo Statista, hơn 500 giờ video được tải lên YouTube mỗi phút, một con số tương đối ổn định kể từ năm 2019. Điều này chưa kể đến các nền tảng video và âm thanh khác như Dailymotion và Podbean. Nếu AI có thể chuyển hướng sang các bộ dữ liệu mới này, sẽ còn rất nhiều thông tin để khai thác.
AI Chủ Yếu Sử Dụng Ngôn Ngữ Tiếng Anh
Whisper của OpenAI cũng được đào tạo với 117,000 giờ dữ liệu âm thanh không phải tiếng Anh. Điều này đặc biệt thú vị vì nhiều hệ thống AI đã được đào tạo chủ yếu bằng tiếng Anh hoặc thông qua lăng kính văn hóa phương Tây.
Chẳng hạn, ChatGPT, sau khi ra mắt vào năm 2022, đã được Jill Walker Rettberg, giáo sư về Văn hóa Kỹ thuật số tại Đại học Bergen, Na Uy, thử nghiệm và kết luận rằng:
“ChatGPT không biết nhiều về văn hóa Na Uy. Hoặc đúng hơn, những gì nó biết về văn hóa Na Uy chủ yếu được học từ các nguồn ngôn ngữ tiếng Anh… ChatGPT được điều chỉnh rõ ràng theo giá trị và luật pháp của Mỹ. Trong nhiều trường hợp, những điều này gần gũi với giá trị và luật pháp của Na Uy và châu Âu, nhưng có lẽ không phải lúc nào cũng như vậy.”
Vì vậy, AI có thể phát triển hơn nữa khi có sự tương tác từ nhiều quốc gia hơn hoặc khi được đào tạo bằng nhiều ngôn ngữ và văn hóa đa dạng.
Các Nhà Xuất Bản Có Thể Giúp Phát Triển AI
Quyền sở hữu trí tuệ rõ ràng là một vấn đề lớn, nhưng một số nhà xuất bản có thể giúp phát triển AI thông qua các thỏa thuận cấp phép. Điều này có nghĩa là cung cấp cho các công cụ dữ liệu chất lượng cao, tức là dữ liệu đáng tin cậy từ sách thay vì thông tin chất lượng thấp từ các nguồn trực tuyến.
Thực tế, Meta, chủ sở hữu của Facebook, Instagram và WhatsApp, đã từng cân nhắc mua lại Simon & Schuster, một trong “Big Five” nhà xuất bản. Ý tưởng là sử dụng tài liệu do công ty này xuất bản để đào tạo AI của Meta. Thỏa thuận cuối cùng đã không thành công, có lẽ do khu vực đạo đức mờ ám liên quan đến việc xử lý quyền sở hữu trí tuệ mà không có sự đồng ý trước từ các nhà văn.
Một lựa chọn khác được xem xét là mua quyền cấp phép cho các tựa sách mới. Điều này có thể gây lo ngại cho các nhà sáng tạo, nhưng vẫn sẽ là một cách thú vị để các công cụ AI phát triển nếu dữ liệu sử dụng được cạn kiệt.
Dữ Liệu Tổng Hợp Là Tương Lai
Mọi giải pháp khác đều còn hạn chế, nhưng một lựa chọn có thể giúp AI phát triển mạnh mẽ trong tương lai là dữ liệu tổng hợp. Và nó đang được nghiên cứu như một khả năng rất thực tế.
Dữ liệu tổng hợp là gì? Trong trường hợp này, đó là dữ liệu được tạo ra bởi AI; giống như con người tạo ra dữ liệu, phương pháp này sẽ thấy trí tuệ nhân tạo tạo ra dữ liệu để mục đích đào tạo.
Ví dụ, một AI có thể tạo ra một video deepfake thuyết phục. Video deepfake đó có thể được đưa vào AI để nó học từ những gì về cơ bản là một kịch bản tưởng tượng. Điều này, sau tất cả, là một trong những cách chính mà con người học: chúng ta đọc hoặc xem một cái gì đó để hiểu thế giới xung quanh mình.
Các AI có lẽ đã tiêu thụ thông tin tổng hợp. Các video deepfake lưu hành trên mạng lan truyền thông tin sai lệch và thông tin giả mạo, vì vậy khi các hệ thống AI quét internet, có thể một số đã bị ảnh hưởng bởi nội dung giả mạo.
Có một mặt tiêu cực đối với điều này. Nó cũng có thể làm hỏng hoặc hạn chế AI, củng cố và lan truyền những sai lầm mà các công cụ này mắc phải. Các công ty đang làm việc để loại bỏ vấn đề sau; tuy nhiên, “AI học từ nhau và mắc lỗi” là một điểm cốt truyện của nhiều kịch bản ác mộng khoa học viễn tưởng.
-
Dữ liệu chất lượng cao cho AI là gì?
Dữ liệu chất lượng cao cho AI là dữ liệu chính xác, đáng tin cậy và có giá trị, giúp AI học hỏi và phát triển một cách hiệu quả. -
Tại sao dữ liệu chất lượng cao lại quan trọng đối với AI?
Dữ liệu chất lượng cao giúp AI đưa ra các dự đoán và quyết định chính xác hơn, cải thiện hiệu suất và độ tin cậy của hệ thống. -
Các nguồn dữ liệu chất lượng cao cho AI bao gồm những gì?
Các nguồn dữ liệu chất lượng cao bao gồm sách, tài liệu khoa học, dữ liệu từ các nghiên cứu và dữ liệu tổng hợp được tạo ra bởi AI. -
Làm thế nào để AI quên dữ liệu chất lượng thấp?
Microsoft đang phát triển phương pháp cho phép AI chọn lọc “quên” dữ liệu, giúp loại bỏ thông tin không chính xác hoặc không hữu ích. -
Nhận diện giọng nói có thể giúp AI như thế nào?
Nhận diện giọng nói mở rộng nguồn dữ liệu từ video và podcast, cung cấp cho AI thêm thông tin để đào tạo và cải thiện khả năng hiểu ngôn ngữ tự nhiên. -
Tại sao AI thường sử dụng ngôn ngữ tiếng Anh?
Nhiều hệ thống AI được đào tạo chủ yếu bằng tiếng Anh do sự phổ biến và sẵn có của dữ liệu tiếng Anh trên internet. -
Dữ liệu tổng hợp có thể giúp AI phát triển như thế nào?
Dữ liệu tổng hợp do AI tạo ra có thể cung cấp các kịch bản tưởng tượng để AI học hỏi, giúp mở rộng khả năng và giảm thiểu sự phụ thuộc vào dữ liệu thực tế.
Kết Luận
AI là một chủ đề gây tranh cãi. Nó có nhiều mặt trái, nhưng những người phản đối thường bỏ qua lợi ích của nó. Ví dụ, mạng lưới kiểm toán và tư vấn PwC [PDF] cho rằng AI có thể đóng góp tới 15,7 nghìn tỷ đô la vào nền kinh tế thế giới vào năm 2030.
Hơn nữa, AI đang được sử dụng khắp nơi trên thế giới. Bạn có thể đã sử dụng nó hôm nay dưới một hình thức nào đó, có lẽ mà không nhận ra. Khi AI đã ra khỏi chai, chìa khóa chắc chắn là đào tạo nó trên dữ liệu đáng tin cậy, chất lượng cao để chúng ta có thể sử dụng nó một cách hợp lý.
AI có những mặt tích cực và tiêu cực. Cần phải tìm ra sự cân bằng.