Tạp Chí Mobile
  • Home
  • Iphone
  • Windows
  • Android
  • Tech
  • Security
  • Mẹo
  • Hướng Dẫn
  • Entertainment
No Result
View All Result
SUBSCRIBE
Tạp Chí Mobile
  • Home
  • Iphone
  • Windows
  • Android
  • Tech
  • Security
  • Mẹo
  • Hướng Dẫn
  • Entertainment
No Result
View All Result
Tạp Chí Mobile
No Result
View All Result
Home Tech

Dữ Liệu Chất Lượng Cao Cho AI: Thách Thức và Giải Pháp

admin by admin
June 15, 2025
in Tech
0
Smartphone hiển thị logo DALL-E 3, đặt trên nền các máy chủ dữ liệu và mã số kỹ thuật số, biểu tượng cho công nghệ AI.

Smartphone hiển thị logo DALL-E 3, đặt trên nền các máy chủ dữ liệu và mã số kỹ thuật số, biểu tượng cho công nghệ AI.

74
SHARES
1.2k
VIEWS
Share on FacebookShare on Twitter

You might also like

Cách Chọn Laptop Dễ Sửa Chữa: Hướng Dẫn Chi Tiết

Cảnh Sát Có Thể Tìm Lại Tiền Điện Tử Bị Đánh Cắp Không?

Ứng Dụng ChatGPT Cho macOS: Tính Năng và Hướng Dẫn Sử Dụng

Contents

  • Dữ Liệu Chất Lượng Cao Đang Dần Cạn Kiệt
  • AI Có Thể Quên Dữ Liệu Chất Lượng Thấp
  • Nhận Diện Giọng Nói Mở Rộng Nguồn Dữ Liệu Video và Podcast
  • AI Chủ Yếu Sử Dụng Ngôn Ngữ Tiếng Anh
  • Các Nhà Xuất Bản Có Thể Giúp Phát Triển AI
  • Dữ Liệu Tổng Hợp Là Tương Lai
  • Kết Luận

Trong thời đại công nghệ số, trí tuệ nhân tạo (AI) đang ngày càng trở nên quan trọng và ảnh hưởng đến mọi mặt của cuộc sống. Tuy nhiên, để AI tiếp tục phát triển và mang lại giá trị, việc cung cấp dữ liệu chất lượng cao là một thách thức không nhỏ. Bài viết này sẽ đi sâu vào các vấn đề liên quan đến dữ liệu cho AI, từ nguy cơ thiếu hụt dữ liệu chất lượng cao đến các giải pháp tiềm năng như dữ liệu tổng hợp và nhận diện giọng nói.

Dữ Liệu Chất Lượng Cao Đang Dần Cạn Kiệt

Theo nghiên cứu từ viện nghiên cứu AI Epoch, dữ liệu chất lượng cao mà AI sử dụng để đào tạo có thể cạn kiệt vào năm 2026. Tuy nhiên, từ “có thể” ở đây rất quan trọng vì lượng dữ liệu được thêm vào internet hàng năm đang tăng lên. Dù vậy, việc dữ liệu chất lượng cao sẽ hết vào một thời điểm nào đó là điều không thể tránh khỏi.

Hàng năm, khoảng 147 zettabyte dữ liệu được thêm vào mạng internet, theo Exploding Topics. Một zettabyte tương đương với 1,000,000,000,000,000,000,000 bit dữ liệu, tương đương với hơn 30 tỷ bộ phim 4K. Đây là một lượng thông tin khổng lồ mà AI có thể khai thác, nhưng AI tiêu thụ dữ liệu nhanh hơn so với tốc độ con người tạo ra.

AI Có Thể Quên Dữ Liệu Chất Lượng Thấp

Không phải toàn bộ 147 zettabyte dữ liệu đó đều là dữ liệu chất lượng cao. Reuters đã đưa tin rằng Photobucket, một trong những kho lưu trữ hình ảnh lớn nhất thế giới, đang đàm phán để cấp phép thư viện hình ảnh của mình cho các công ty đào tạo AI. Dữ liệu hình ảnh đã được sử dụng để đào tạo các hệ thống như DALL-E và Midjourney, nhưng ngay cả dữ liệu này cũng có thể cạn kiệt vào năm 2060.

Read more: Data Roaming Là Gì và Khi Nào Nên Sử Dụng Khi Đi Du Lịch Nước Ngoài

Smartphone hiển thị logo DALL-E 3, đặt trên nền các máy chủ dữ liệu và mã số kỹ thuật số, biểu tượng cho công nghệ AI.Smartphone hiển thị logo DALL-E 3, đặt trên nền các máy chủ dữ liệu và mã số kỹ thuật số, biểu tượng cho công nghệ AI.

Photobucket không phải là trường hợp duy nhất. Vào tháng 2 năm 2024, Google đã ký thỏa thuận với Reddit, cho phép gã khổng lồ tìm kiếm sử dụng dữ liệu người dùng của nền tảng mạng xã hội này để đào tạo AI. Các nền tảng mạng xã hội khác cũng cung cấp dữ liệu người dùng cho mục đích đào tạo AI; một số sử dụng dữ liệu này để đào tạo mô hình AI nội bộ, chẳng hạn như Llama của Meta.

Tuy nhiên, trong khi một số thông tin có thể được rút ra từ dữ liệu chất lượng thấp, Microsoft đang phát triển phương pháp cho phép AI chọn lọc “quên” dữ liệu. Phương pháp này chủ yếu được sử dụng để giải quyết các vấn đề về quyền sở hữu trí tuệ, nhưng cũng có thể giúp AI quên những gì đã học từ các bộ dữ liệu chất lượng thấp.

Read more: Cách Tìm Kiếm Hiệu Quả Trên Amazon: Bí Quyết và Mẹo Hữu Ích

Nhận Diện Giọng Nói Mở Rộng Nguồn Dữ Liệu Video và Podcast

Dữ liệu được cung cấp cho các công cụ AI cho đến nay chủ yếu là văn bản và hình ảnh, nhưng điều này sẽ thay đổi với sự phát triển của phần mềm nhận diện giọng nói. OpenAI đã phát triển mạng lưới thần kinh nhận diện giọng nói tự động (ASR) mã nguồn mở, Whisper, sử dụng 680,000 giờ dữ liệu đa ngôn ngữ và đa nhiệm vụ. Sau đó, OpenAI đã cung cấp hơn một triệu giờ thông tin từ các video trên YouTube vào mô hình ngôn ngữ lớn của mình, GPT-4.

Người phụ nữ thổi confetti ra khỏi cuốn sách vừa đọc xongNgười phụ nữ thổi confetti ra khỏi cuốn sách vừa đọc xong

Theo Statista, hơn 500 giờ video được tải lên YouTube mỗi phút, một con số tương đối ổn định kể từ năm 2019. Điều này chưa kể đến các nền tảng video và âm thanh khác như Dailymotion và Podbean. Nếu AI có thể chuyển hướng sang các bộ dữ liệu mới này, sẽ còn rất nhiều thông tin để khai thác.

Read more: So Sánh Các Định Dạng Tệp Hình Ảnh: JPEG, PNG, SVG và Hơn Thế Nữa

AI Chủ Yếu Sử Dụng Ngôn Ngữ Tiếng Anh

Whisper của OpenAI cũng được đào tạo với 117,000 giờ dữ liệu âm thanh không phải tiếng Anh. Điều này đặc biệt thú vị vì nhiều hệ thống AI đã được đào tạo chủ yếu bằng tiếng Anh hoặc thông qua lăng kính văn hóa phương Tây.

Chẳng hạn, ChatGPT, sau khi ra mắt vào năm 2022, đã được Jill Walker Rettberg, giáo sư về Văn hóa Kỹ thuật số tại Đại học Bergen, Na Uy, thử nghiệm và kết luận rằng:

“ChatGPT không biết nhiều về văn hóa Na Uy. Hoặc đúng hơn, những gì nó biết về văn hóa Na Uy chủ yếu được học từ các nguồn ngôn ngữ tiếng Anh… ChatGPT được điều chỉnh rõ ràng theo giá trị và luật pháp của Mỹ. Trong nhiều trường hợp, những điều này gần gũi với giá trị và luật pháp của Na Uy và châu Âu, nhưng có lẽ không phải lúc nào cũng như vậy.”

Vì vậy, AI có thể phát triển hơn nữa khi có sự tương tác từ nhiều quốc gia hơn hoặc khi được đào tạo bằng nhiều ngôn ngữ và văn hóa đa dạng.

Các Nhà Xuất Bản Có Thể Giúp Phát Triển AI

Quyền sở hữu trí tuệ rõ ràng là một vấn đề lớn, nhưng một số nhà xuất bản có thể giúp phát triển AI thông qua các thỏa thuận cấp phép. Điều này có nghĩa là cung cấp cho các công cụ dữ liệu chất lượng cao, tức là dữ liệu đáng tin cậy từ sách thay vì thông tin chất lượng thấp từ các nguồn trực tuyến.

Read more: Dịch Trang Web Bằng Công Cụ Dịch Tích Hợp Trong Trình Duyệt

Thực tế, Meta, chủ sở hữu của Facebook, Instagram và WhatsApp, đã từng cân nhắc mua lại Simon & Schuster, một trong “Big Five” nhà xuất bản. Ý tưởng là sử dụng tài liệu do công ty này xuất bản để đào tạo AI của Meta. Thỏa thuận cuối cùng đã không thành công, có lẽ do khu vực đạo đức mờ ám liên quan đến việc xử lý quyền sở hữu trí tuệ mà không có sự đồng ý trước từ các nhà văn.

Một lựa chọn khác được xem xét là mua quyền cấp phép cho các tựa sách mới. Điều này có thể gây lo ngại cho các nhà sáng tạo, nhưng vẫn sẽ là một cách thú vị để các công cụ AI phát triển nếu dữ liệu sử dụng được cạn kiệt.

Dữ Liệu Tổng Hợp Là Tương Lai

Mọi giải pháp khác đều còn hạn chế, nhưng một lựa chọn có thể giúp AI phát triển mạnh mẽ trong tương lai là dữ liệu tổng hợp. Và nó đang được nghiên cứu như một khả năng rất thực tế.

Read more: Sử Dụng Một Số Điện Thoại Trên Hai Thiết Bị: Hướng Dẫn Chi Tiết

Dữ liệu tổng hợp là gì? Trong trường hợp này, đó là dữ liệu được tạo ra bởi AI; giống như con người tạo ra dữ liệu, phương pháp này sẽ thấy trí tuệ nhân tạo tạo ra dữ liệu để mục đích đào tạo.

Ví dụ, một AI có thể tạo ra một video deepfake thuyết phục. Video deepfake đó có thể được đưa vào AI để nó học từ những gì về cơ bản là một kịch bản tưởng tượng. Điều này, sau tất cả, là một trong những cách chính mà con người học: chúng ta đọc hoặc xem một cái gì đó để hiểu thế giới xung quanh mình.

Các AI có lẽ đã tiêu thụ thông tin tổng hợp. Các video deepfake lưu hành trên mạng lan truyền thông tin sai lệch và thông tin giả mạo, vì vậy khi các hệ thống AI quét internet, có thể một số đã bị ảnh hưởng bởi nội dung giả mạo.

Read more: Microsoft Copilot: Lựa Chọn Thay Thế ChatGPT Với Nhiều Tính Năng Hấp Dẫn

Có một mặt tiêu cực đối với điều này. Nó cũng có thể làm hỏng hoặc hạn chế AI, củng cố và lan truyền những sai lầm mà các công cụ này mắc phải. Các công ty đang làm việc để loại bỏ vấn đề sau; tuy nhiên, “AI học từ nhau và mắc lỗi” là một điểm cốt truyện của nhiều kịch bản ác mộng khoa học viễn tưởng.

  1. Dữ liệu chất lượng cao cho AI là gì?
    Dữ liệu chất lượng cao cho AI là dữ liệu chính xác, đáng tin cậy và có giá trị, giúp AI học hỏi và phát triển một cách hiệu quả.

  2. Tại sao dữ liệu chất lượng cao lại quan trọng đối với AI?
    Dữ liệu chất lượng cao giúp AI đưa ra các dự đoán và quyết định chính xác hơn, cải thiện hiệu suất và độ tin cậy của hệ thống.

  3. Các nguồn dữ liệu chất lượng cao cho AI bao gồm những gì?
    Các nguồn dữ liệu chất lượng cao bao gồm sách, tài liệu khoa học, dữ liệu từ các nghiên cứu và dữ liệu tổng hợp được tạo ra bởi AI.

  4. Làm thế nào để AI quên dữ liệu chất lượng thấp?
    Microsoft đang phát triển phương pháp cho phép AI chọn lọc “quên” dữ liệu, giúp loại bỏ thông tin không chính xác hoặc không hữu ích.

  5. Nhận diện giọng nói có thể giúp AI như thế nào?
    Nhận diện giọng nói mở rộng nguồn dữ liệu từ video và podcast, cung cấp cho AI thêm thông tin để đào tạo và cải thiện khả năng hiểu ngôn ngữ tự nhiên.

  6. Tại sao AI thường sử dụng ngôn ngữ tiếng Anh?
    Nhiều hệ thống AI được đào tạo chủ yếu bằng tiếng Anh do sự phổ biến và sẵn có của dữ liệu tiếng Anh trên internet.

  7. Dữ liệu tổng hợp có thể giúp AI phát triển như thế nào?
    Dữ liệu tổng hợp do AI tạo ra có thể cung cấp các kịch bản tưởng tượng để AI học hỏi, giúp mở rộng khả năng và giảm thiểu sự phụ thuộc vào dữ liệu thực tế.

Trang chủ của Tạp Chí Mobile

Tham khảo thêm các bài viết về Tech tại đây

Kết Luận

AI là một chủ đề gây tranh cãi. Nó có nhiều mặt trái, nhưng những người phản đối thường bỏ qua lợi ích của nó. Ví dụ, mạng lưới kiểm toán và tư vấn PwC [PDF] cho rằng AI có thể đóng góp tới 15,7 nghìn tỷ đô la vào nền kinh tế thế giới vào năm 2030.

Hơn nữa, AI đang được sử dụng khắp nơi trên thế giới. Bạn có thể đã sử dụng nó hôm nay dưới một hình thức nào đó, có lẽ mà không nhận ra. Khi AI đã ra khỏi chai, chìa khóa chắc chắn là đào tạo nó trên dữ liệu đáng tin cậy, chất lượng cao để chúng ta có thể sử dụng nó một cách hợp lý.

Read more: So Sánh Card Đồ Họa Tích Hợp và Card Đồ Họa Chuyên Dụng: Lựa Chọn Nào Phù Hợp Cho Bạn?

AI có những mặt tích cực và tiêu cực. Cần phải tìm ra sự cân bằng.

Share30Tweet19
admin

admin

Chuyên trang tin tức review về điện thoại di động, các sản phẩm công nghệ, game và thủ thuật.

Recommended For You

Cách Chọn Laptop Dễ Sửa Chữa: Hướng Dẫn Chi Tiết

by admin
June 16, 2025
0
Tháo ốc vít từ vỏ laptop Microsoft Surface

Mở Đầu Khi chọn mua laptop, bạn thường quan tâm đến hiệu năng, thiết kế và giá cả. Tuy nhiên, một yếu tố quan trọng khác mà nhiều...

Read moreDetails

Cảnh Sát Có Thể Tìm Lại Tiền Điện Tử Bị Đánh Cắp Không?

by admin
June 16, 2025
0
Người đeo mũ trùm sử dụng máy tính xách tay với đồ họa Bitcoin và mã nhị phân ở phía sau

Khi bạn bị hack tài khoản ngân hàng, mất ví hoặc thẻ thanh toán bị sử dụng trái phép, việc thông báo cho cảnh sát thường là quy...

Read moreDetails

Ứng Dụng ChatGPT Cho macOS: Tính Năng và Hướng Dẫn Sử Dụng

by admin
June 16, 2025
0
Trang web ChatGPT với menu hồ sơ mở

Ứng dụng ChatGPT cho macOS mang đến cho người dùng những tính năng độc đáo như Voice Mode và launcher, giúp bạn có thể truy cập ChatGPT từ...

Read moreDetails

Hướng Dẫn Sử Dụng Microsoft Copilot Image Generator

by admin
June 15, 2025
0
Hình ảnh người đứng trên bãi biển tạo bởi Copilot Image Generator

Trong thế giới công nghệ ngày càng phát triển, việc tạo ra hình ảnh bằng trí tuệ nhân tạo (AI) đã trở nên phổ biến và dễ tiếp...

Read moreDetails

DuckDuckGo AI Chat: Bảo Vệ Quyền Riêng Tư Khi Trò Chuyện Với AI

by admin
June 15, 2025
0
DuckDuckGo AI Chat bảo vệ quyền riêng tư

Trong thời đại công nghệ ngày càng phát triển, trí tuệ nhân tạo (AI) đã trở thành một phần không thể thiếu trong cuộc sống hàng ngày. Tuy...

Read moreDetails
Next Post
Fujifilm X100VI tại cửa hàng Best Buy

Đánh Giá Fujifilm X100VI: Cảm Biến Mới, Thiết Kế Quen Thuộc

Leave a Reply

Your email address will not be published. Required fields are marked *

Related News

PSU shroud của Be quiet! trong thùng máy tính

PSU Shroud: Tối Ưu Hóa Thẩm Mỹ và Quản Lý Cáp trong PC của Bạn

April 27, 2025
iPhone xem chi tiết mật khẩu iCloud Keychain

iCloud Keychain: Bảo Mật và Tiện Ích Cho Người Dùng Apple

April 25, 2025
Quảng cáo trên Facebook

Các Cách Kiếm Tiền của Các Nền Tảng Mạng Xã Hội

April 25, 2025

Browse by Category

  • Android
  • Hướng Dẫn
  • Iphone
  • Mẹo
  • News
  • Security
  • Tech
  • Windows
Tạp Chí Mobile

Tạp Chí Mobile

Chuyên trang tin tức review về điện thoại di động, các sản phẩm công nghệ, game và thủ thuật.

CATEGORIES

  • Android
  • Hướng Dẫn
  • Iphone
  • Mẹo
  • News
  • Security
  • Tech
  • Windows

© 2025 Tapchimobile.org Chuyên trang thông tin công nghệ.

No Result
View All Result
  • Home
  • Iphone
  • Windows
  • Android
  • Tech
  • Security
  • Mẹo
  • Hướng Dẫn
  • Entertainment

© 2025 Tapchimobile.org Chuyên trang thông tin công nghệ.