Contents
OpenAI’s GPT-4 hiện đang là công cụ AI sinh ra nội dung tốt nhất trên thị trường, nhưng điều đó không có nghĩa là chúng ta không hướng tới tương lai. Với việc CEO của OpenAI, Sam Altman, thường xuyên gợi ý về GPT-5, có vẻ như chúng ta sẽ sớm thấy một mô hình AI mới và nâng cấp hơn.
Ít nhất, đó là điều chúng ta đang hy vọng. Hiện tại không có ngày ra mắt cụ thể cho GPT-5, và hầu hết những gì chúng ta nghĩ rằng mình biết đều đến từ việc ghép nối các thông tin khác và cố gắng kết nối các điểm.
Dù sao đi nữa, không phụ thuộc vào ngày ra mắt, có một số tính năng quan trọng mà chúng ta muốn thấy khi GPT-5 được ra mắt.
GPT-5 Là Gì?
GPT-5 là người kế nhiệm được mong đợi cao của mô hình AI GPT-4 của OpenAI, dự kiến sẽ trở thành mô hình sinh ra nội dung mạnh nhất trên thị trường. Mặc dù hiện tại không có ngày phát hành chính thức cho GPT-5, có những dấu hiệu cho thấy nó có thể được phát hành sớm nhất là vào mùa hè năm 2024. Rất ít chi tiết về mô hình này được biết đến vào thời điểm này, nhưng có một số điều có thể được khẳng định với một mức độ chắc chắn nhất định:
- OpenAI đã nộp đơn đăng ký nhãn hiệu cho tên gọi này với Văn phòng Sáng chế và Nhãn hiệu Hoa Kỳ.
- Một số giám đốc điều hành của OpenAI đã thảo luận hoặc gợi ý về khả năng có thể của mô hình này.
- CEO của OpenAI, Sam Altman, đã đề cập nhiều lần đến mô hình này trong một cuộc phỏng vấn YouTube với Lex Fridman vào tháng 3 năm 2024.
Tất cả những điều này đều chỉ đến một thực tế thú vị: GPT-5 đang đến! Tuy nhiên, có rất nhiều điều đang ở mức đoán mò vào thời điểm này. Nhưng có một số điều mà chúng ta hy vọng sẽ thấy và khá tự tin rằng sẽ thấy trong mô hình này. Dưới đây là một số điều đó:
1. Đa Phương Tiện Hơn
Trình tạo video từ văn bản OpenAI Sora
Một trong những cải tiến thú vị nhất đối với gia đình các mô hình AI của GPT là đa phương tiện. Để rõ ràng, đa phương tiện là khả năng của một mô hình AI xử lý không chỉ văn bản mà còn các loại đầu vào khác như hình ảnh, âm thanh và video. Đa phương tiện sẽ là một tiêu chuẩn quan trọng để đánh giá sự tiến bộ của gia đình các mô hình GPT trong tương lai.
Với GPT-4 đã thành thạo trong việc xử lý đầu vào và đầu ra hình ảnh, các cải tiến bao gồm xử lý âm thanh và video là cột mốc tiếp theo cho OpenAI, và GPT-5 là một điểm khởi đầu tốt. Google đã đạt được những bước tiến đáng kể với loại đa phương tiện này với mô hình AI Gemini của họ. Sẽ là không đặc trưng nếu OpenAI không phản ứng. Nhưng, tất nhiên, đừng chỉ nghe lời chúng tôi. Trong podcast Unconfuse Me [bản ghi âm PDF], Bill Gates đã hỏi CEO của OpenAI, Sam Altman, về các cột mốc mà ông dự đoán cho loạt GPT trong hai năm tới. Câu trả lời đầu tiên của ông? Xử lý video.
Vì vậy, đối với GPT-5, chúng ta mong đợi có thể chơi đùa với các video—tải lên video làm gợi ý, tạo video ngay lập tức, chỉnh sửa video bằng các gợi ý văn bản, trích xuất các đoạn từ video, và tìm các cảnh cụ thể từ các tệp video lớn. Chúng ta cũng mong đợi có thể thực hiện các thao tác tương tự với các tệp âm thanh. Đó là một yêu cầu lớn, đúng vậy. Nhưng với tốc độ phát triển AI hiện tại, đó là một kỳ vọng hoàn toàn hợp lý.
2. Cửa Sổ Ngữ Cảnh Lớn Hơn và Hiệu Quả Hơn
Màn hình trên bàn làm việc với logo OpenAI
Mặc dù là một trong những mô hình AI tinh vi nhất trên thị trường, gia đình các mô hình AI của GPT có một trong những cửa sổ ngữ cảnh nhỏ nhất. Ví dụ, Claude 3 của Anthropic có cửa sổ ngữ cảnh 200.000 token, trong khi Gemini của Google có thể xử lý một lượng token khổng lồ lên đến 1 triệu token (128.000 token cho sử dụng tiêu chuẩn). Ngược lại, GPT-4 có cửa sổ ngữ cảnh tương đối nhỏ hơn là 128.000 token, với khoảng 32.000 token hoặc ít hơn thực sự có thể sử dụng trên các giao diện như ChatGPT.
Với việc đa phương tiện nâng cao đang trở thành hiện thực, một cửa sổ ngữ cảnh được cải thiện là điều gần như không thể tránh khỏi. Có lẽ một sự gia tăng gấp đôi hoặc gấp bốn sẽ đủ, nhưng chúng ta hy vọng sẽ thấy một sự gia tăng gấp mười lần. Điều này sẽ cho phép GPT-5 xử lý nhiều thông tin hơn một cách hiệu quả hơn nhiều. Tuy nhiên, một cửa sổ ngữ cảnh lớn hơn không phải lúc nào cũng có nghĩa là tốt hơn. Vì vậy, thay vì chỉ tăng cửa sổ ngữ cảnh, chúng ta muốn thấy hiệu quả xử lý ngữ cảnh được nâng cao.
Bạn thấy đấy, một mô hình có thể có cửa sổ ngữ cảnh một triệu token (khoảng 700.000 từ) nhưng không thể tạo ra một bản tóm tắt toàn diện khi được yêu cầu tóm tắt một cuốn sách 500.000 từ vì nó không thể xử lý đầy đủ ngữ cảnh mặc dù có khả năng làm điều đó về lý thuyết. Việc bạn có thể đọc một cuốn sách 500.000 từ không có nghĩa là bạn có thể nhớ lại mọi thứ trong đó hoặc xử lý nó một cách hợp lý.
3. Đại Lý GPT
ChatGPT được truy cập trên điện thoại thông minh
Có lẽ một trong những khả năng thú vị nhất của việc ra mắt GPT-5 là sự ra mắt của các Đại lý GPT. Mặc dù thuật ngữ “thay đổi cuộc chơi” có lẽ đã bị lạm dụng trong lĩnh vực AI, nhưng các đại lý GPT thực sự sẽ là những thay đổi cuộc chơi theo mọi nghĩa thực tế. Nhưng việc này sẽ thay đổi cuộc chơi như thế nào?
Hiện tại, các mô hình AI như GPT-4 có thể giúp bạn hoàn thành một nhiệm vụ. Chúng có thể viết email, kể chuyện cười, giải bài toán, hoặc soạn thảo một bài blog cho bạn. Tuy nhiên, chúng chỉ có thể thực hiện nhiệm vụ đó và không thể hoàn thành một tập hợp các nhiệm vụ liên quan cần thiết để hoàn thành công việc của bạn.
Giả sử bạn là một nhà phát triển web. Là một phần của công việc của bạn, bạn được kỳ vọng phải làm nhiều việc: thiết kế, viết mã, khắc phục sự cố và nhiều hơn nữa. Hiện tại, bạn chỉ có thể ủy thác một phần của những nhiệm vụ này cho các mô hình AI tại một thời điểm. Có thể bạn có thể yêu cầu mô hình GPT-4 viết mã cho trang chủ, sau đó yêu cầu nó làm như vậy cho trang liên hệ, và sau đó cho trang Giới thiệu, v.v. Bạn sẽ cần hoàn thành những nhiệm vụ này theo lần lượt. Và có những nhiệm vụ mà các mô hình đơn giản không thể hoàn thành.
Quá trình lặp đi lặp lại này để nhắc nhở các mô hình AI thực hiện các nhiệm vụ phụ cụ thể là tốn thời gian và không hiệu quả. Trong tình huống này, bạn—nhà phát triển web—là đại lý con người chịu trách nhiệm phối hợp và nhắc nhở các mô hình AI từng nhiệm vụ một cho đến khi bạn hoàn thành toàn bộ một tập hợp các nhiệm vụ liên quan.
Các Đại lý GPT hứa hẹn các bot chuyên gia được phối hợp bởi, hy vọng, GPT-5 có khả năng tự nhắc nhở và giải quyết tất cả các phần của một nhiệm vụ phức tạp một cách tự động. Nhấn mạnh vào “tự nhắc nhở” và “tự động”.
Vì vậy, nếu GPT-5 ra mắt với các Đại lý GPT, bạn có thể yêu cầu nó “xây dựng một trang web danh mục cho Maxwell Timothy” thay vì chỉ “viết mã cho trang chủ cho tôi.” GPT-5 sau đó lý thuyết có thể tự nhắc nhở bằng cách gọi các đại lý AI chuyên gia để xử lý các nhiệm vụ phụ cần thiết để xây dựng một trang web. Nó có thể gọi một GPT để cào web tìm thông tin về Maxwell Timothy, một đại lý khác để viết mã cho các trang khác nhau, một đại lý khác để tạo và tối ưu hóa hình ảnh, và thậm chí một đại lý AI khác để triển khai trang web, tất cả mà không cần sự nhắc nhở lặp đi lặp lại từ con người.
4. Giảm Tình Trạng Ảo Giác
Mặc dù OpenAI đã đi một chặng đường dài trong việc giải quyết tình trạng ảo giác trong các mô hình AI của mình, nhưng bài kiểm tra thực sự cho GPT-5 sẽ là khả năng giải quyết vấn đề dai dẳng về ảo giác, vấn đề này đã kìm hãm việc áp dụng rộng rãi AI trong các lĩnh vực quan trọng, nhạy cảm như y tế, hàng không và an ninh mạng. Đây đều là những lĩnh vực sẽ hưởng lợi rất nhiều từ sự tham gia mạnh mẽ của AI nhưng hiện tại đang tránh bất kỳ sự áp dụng đáng kể nào.
Để rõ ràng, ảo giác trong ngữ cảnh này đề cập đến các tình huống mà mô hình AI tạo ra và trình bày thông tin nghe có vẻ hợp lý nhưng hoàn toàn bịa đặt với mức độ tự tin cao.
Hãy tưởng tượng một tình huống mà GPT-4 được tích hợp vào hệ thống chẩn đoán để phân tích triệu chứng và báo cáo y tế của bệnh nhân. Một ảo giác có thể dẫn đến việc AI tự tin đưa ra chẩn đoán sai hoặc đề xuất một phương pháp điều trị tiềm ẩn nguy hiểm dựa trên các sự kiện tưởng tượng và logic sai lầm. Hậu quả của một lỗi như vậy trong lĩnh vực y tế có thể là thảm họa.
Tương tự, các mối lo ngại cũng áp dụng cho các lĩnh vực khác có hậu quả cao như hàng không, năng lượng hạt nhân, hoạt động hàng hải và an ninh mạng. Chúng ta không mong đợi GPT-5 giải quyết hoàn toàn vấn đề ảo giác, nhưng chúng ta mong đợi nó sẽ giảm đáng kể khả năng xảy ra những sự cố như vậy.
Khi chúng ta háo hức chờ đợi sự ra mắt chính thức của mô hình AI được mong đợi cao này, một điều chắc chắn: GPT-5 có tiềm năng định nghĩa lại ranh giới của những gì có thể với trí tuệ nhân tạo, mở ra một kỷ nguyên mới của sự hợp tác và đổi mới giữa con người và máy móc.
1. GPT-5 sẽ được ra mắt vào khi nào?
Hiện tại chưa có ngày ra mắt chính thức cho GPT-5, nhưng có thể nó sẽ được phát hành vào mùa hè năm 2024.
2. GPT-5 sẽ có những tính năng gì mới?
GPT-5 dự kiến sẽ có các tính năng như đa phương tiện nâng cao, cửa sổ ngữ cảnh lớn hơn và hiệu quả hơn, đại lý GPT và giảm tình trạng ảo giác.
3. Đa phương tiện trong GPT-5 là gì?
Đa phương tiện trong GPT-5 là khả năng xử lý không chỉ văn bản mà còn các loại đầu vào khác như hình ảnh, âm thanh và video.
4. Cửa sổ ngữ cảnh của GPT-5 sẽ lớn hơn bao nhiêu so với GPT-4?
Chúng ta hy vọng cửa sổ ngữ cảnh của GPT-5 sẽ lớn hơn gấp mười lần so với GPT-4, cho phép xử lý nhiều thông tin hơn một cách hiệu quả.
5. Đại lý GPT là gì?
Đại lý GPT là các bot chuyên gia được phối hợp bởi GPT-5, có khả năng tự nhắc nhở và giải quyết tất cả các phần của một nhiệm vụ phức tạp một cách tự động.
6. Tình trạng ảo giác trong AI là gì?
Tình trạng ảo giác trong AI là khi mô hình AI tạo ra và trình bày thông tin nghe có vẻ hợp lý nhưng hoàn toàn bịa đặt với mức độ tự tin cao.
7. GPT-5 sẽ giải quyết tình trạng ảo giác như thế nào?
GPT-5 dự kiến sẽ giảm đáng kể khả năng xảy ra tình trạng ảo giác, đặc biệt trong các lĩnh vực quan trọng và nhạy cảm như y tế, hàng không và an ninh mạng.
Kết Luận
GPT-5 hứa hẹn sẽ mang lại những cải tiến đáng kể trong đa phương tiện, cửa sổ ngữ cảnh, đại lý GPT và giảm tình trạng ảo giác. Những tính năng này không chỉ nâng cao khả năng của AI mà còn mở ra nhiều cơ hội mới cho các lĩnh vực khác nhau. Chúng ta cần theo dõi sát sao những phát triển tiếp theo để hiểu rõ hơn về tiềm năng thực sự của GPT-5 và cách nó có thể thay đổi cách chúng ta tương tác với công nghệ.
Hãy tiếp tục theo dõi Tạp Chí Mobile để cập nhật những tin tức mới nhất về công nghệ và các bài viết chuyên sâu về AI tại Tech.