Contents
- Tại Sao Cung Cấp Dữ Liệu Tùy Chỉnh Cho ChatGPT?
- Bước 1: Cài Đặt và Tải Xuống Phần Mềm và Kịch Bản Đã Được Tạo Sẵn
- Ghi Chú Cài Đặt Python3 và Microsoft C++
- Bước 2: Thiết Lập Môi Trường Cục Bộ
- Bước 3: Thêm Dữ Liệu Tùy Chỉnh
- Bước 4: Truy Vấn ChatGPT Qua Terminal
- Hạn Chế Của ChatGPT Tùy Chỉnh
- ChatGPT Tùy Chỉnh Rất Tuyệt Nhưng Có Hạn Chế
ChatGPT là công cụ AI phổ biến nhất thế giới, cung cấp công nghệ GPT trong một chatbot mạnh mẽ và dễ sử dụng. Nhiều người sử dụng ChatGPT để tạo ra các cuộc trò chuyện hấp dẫn, trả lời câu hỏi, đưa ra gợi ý sáng tạo và hỗ trợ trong việc lập trình và viết lách. Tuy nhiên, ChatGPT có một số hạn chế, như không thể lưu trữ dữ liệu cá nhân lâu dài và điểm cắt dữ liệu kiến thức vào tháng 9 năm 2021.
Để khắc phục, chúng ta có thể sử dụng API của OpenAI và LangChain để cung cấp cho ChatGPT dữ liệu tùy chỉnh và thông tin cập nhật sau năm 2021, tạo ra một phiên bản ChatGPT tùy chỉnh.
Tại Sao Cung Cấp Dữ Liệu Tùy Chỉnh Cho ChatGPT?
Việc cung cấp dữ liệu tùy chỉnh và cập nhật thông tin vượt qua ngày cắt kiến thức của ChatGPT mang lại nhiều lợi ích so với việc chỉ sử dụng ChatGPT như thường lệ. Dưới đây là một số lợi ích:
- Tương Tác Cá Nhân Hóa: Bằng cách cung cấp dữ liệu tùy chỉnh, người dùng có thể tạo ra trải nghiệm cá nhân hóa hơn. Mô hình có thể được đào tạo trên các tập dữ liệu cụ thể phù hợp với từng người dùng hoặc tổ chức, dẫn đến các phản hồi được điều chỉnh theo nhu cầu và sở thích riêng của họ.
- Chuyên Môn Theo Lĩnh Vực: Tích hợp dữ liệu tùy chỉnh cho phép ChatGPT chuyên môn hóa trong các lĩnh vực hoặc ngành cụ thể. Nó có thể được đào tạo trên kiến thức, thuật ngữ và xu hướng cụ thể của ngành, giúp đưa ra các phản hồi chính xác và sâu sắc hơn trong những lĩnh vực đó.
- Thông Tin Hiện Tại và Chính Xác: Truy cập thông tin cập nhật đảm bảo rằng ChatGPT luôn cập nhật với những phát triển và kiến thức mới nhất. Nó có thể cung cấp các phản hồi chính xác dựa trên các sự kiện, tin tức hoặc nghiên cứu gần đây, khiến nó trở thành nguồn thông tin đáng tin cậy hơn.
Giờ đây, khi bạn đã hiểu tầm quan trọng của việc cung cấp dữ liệu tùy chỉnh cho ChatGPT, hãy cùng đi qua các bước chi tiết để thực hiện điều này trên máy tính của bạn.
Bước 1: Cài Đặt và Tải Xuống Phần Mềm và Kịch Bản Đã Được Tạo Sẵn
Lưu ý rằng các hướng dẫn sau đây dành cho máy tính chạy Windows 10 hoặc Windows 11.
Để cung cấp dữ liệu tùy chỉnh cho ChatGPT, bạn cần cài đặt và tải xuống phiên bản mới nhất của Python3, Git, Microsoft C++, và kịch bản ChatGPT-retrieval từ GitHub. Nếu bạn đã cài đặt một số phần mềm này trên máy tính của mình, hãy đảm bảo rằng chúng đã được cập nhật lên phiên bản mới nhất để tránh bất kỳ trục trặc nào trong quá trình.
Bắt đầu bằng việc cài đặt:
Ghi Chú Cài Đặt Python3 và Microsoft C++
Khi cài đặt Python3, hãy chắc chắn rằng bạn chọn tùy chọn Thêm python.exe vào PATH trước khi nhấn Cài Đặt Ngay. Điều này rất quan trọng vì nó cho phép bạn truy cập Python từ bất kỳ thư mục nào trên máy tính của bạn.
Thêm Python vào PATH
Khi cài đặt Microsoft C++, bạn sẽ muốn cài đặt Microsoft Visual Studio Build Tools trước. Sau khi cài đặt, bạn có thể chọn tùy chọn Phát triển ứng dụng Desktop với C++ và nhấn Cài Đặt với tất cả các công cụ tùy chọn được tự động chọn ở thanh bên phải.
Sau khi đã cài đặt các phiên bản mới nhất của Python3, Git và Microsoft C++, bạn có thể tải xuống kịch bản Python để dễ dàng truy vấn dữ liệu tùy chỉnh cục bộ.
Tải xuống: Kịch bản ChatGPT-retrieval (Miễn phí)
Để tải xuống kịch bản, nhấn vào Mã nguồn, sau đó chọn Tải xuống ZIP. Điều này sẽ tải xuống kịch bản Python vào thư mục mặc định hoặc thư mục bạn đã chọn.
Tải xuống kịch bản Python trên GitHub
Sau khi tải xuống, chúng ta có thể thiết lập môi trường cục bộ.
Bước 2: Thiết Lập Môi Trường Cục Bộ
Để thiết lập môi trường, bạn cần mở terminal trong thư mục chatgpt-retrieval-main mà bạn đã tải xuống. Để làm điều đó, mở thư mục chatgpt-retrieval-main, nhấp chuột phải và chọn Mở trong Terminal.
Khi terminal đã mở, sao chép và dán lệnh sau:
pip install langchain openai chromadb tiktoken unstructured
Lệnh này sử dụng trình quản lý gói của Python để tạo và quản lý môi trường ảo Python.
Sau khi tạo môi trường ảo, chúng ta cần cung cấp một khóa API của OpenAI để truy cập các dịch vụ của họ. Đầu tiên, chúng ta cần tạo một khóa API từ trang quản lý khóa API của OpenAI bằng cách nhấn vào Tạo khóa bí mật mới, thêm tên cho khóa, sau đó nhấn nút Tạo khóa bí mật.
Tạo khóa API bí mật
Bạn sẽ nhận được một chuỗi ký tự. Đây là khóa API của OpenAI. Sao chép nó bằng cách nhấn vào biểu tượng sao chép bên cạnh khóa API. Lưu ý rằng khóa API này nên được giữ bí mật. Không chia sẻ nó với người khác trừ khi bạn thực sự muốn họ sử dụng nó cùng với bạn.
Sau khi sao chép, quay lại thư mục chatgpt-retrieval-main và mở tệp constants bằng Notepad. Bây giờ thay thế giá trị placeholder bằng khóa API của bạn. Đừng quên lưu tệp!
Sau khi thiết lập thành công môi trường ảo và thêm khóa API của OpenAI vào biến môi trường, bạn có thể cung cấp dữ liệu tùy chỉnh của mình cho ChatGPT.
Bước 3: Thêm Dữ Liệu Tùy Chỉnh
Để thêm dữ liệu tùy chỉnh, đặt tất cả dữ liệu văn bản của bạn vào thư mục data trong chatgpt-retrieval-main. Định dạng của dữ liệu văn bản có thể là PDF, TXT hoặc DOC.
Thêm dữ liệu tùy chỉnh cho ChatGPT
Như bạn có thể thấy từ hình ảnh trên, tôi đã thêm một tệp văn bản chứa lịch trình cá nhân giả định, một bài viết tôi đã viết về AMD’s Instinct Accelerators, và một tài liệu PDF.
Bước 4: Truy Vấn ChatGPT Qua Terminal
Kịch bản Python cho phép chúng ta truy vấn dữ liệu từ dữ liệu tùy chỉnh mà chúng ta đã thêm vào thư mục data và từ internet. Nói cách khác, bạn sẽ có quyền truy cập vào backend của ChatGPT thông thường và tất cả dữ liệu được lưu trữ cục bộ trong thư mục data.
Để sử dụng kịch bản, chạy kịch bản python chatgpt.py và sau đó thêm câu hỏi hoặc truy vấn của bạn làm đối số.
python <a href="http://chatgpt.py" target="_blank">chatgpt.py</a> "CÂU HỎI CỦA BẠN"
Hãy chắc chắn đặt câu hỏi của bạn trong dấu ngoặc kép.
Để kiểm tra xem chúng ta đã cung cấp thành công dữ liệu cho ChatGPT, tôi sẽ đặt một câu hỏi cá nhân liên quan đến tệp Personal Sched.txt.
Nó đã hoạt động! Điều này có nghĩa là ChatGPT đã có thể đọc tệp Personal Sched.txt được cung cấp trước đó. Bây giờ, hãy xem liệu chúng ta đã cung cấp thành công cho ChatGPT thông tin mà nó không biết do ngày cắt kiến thức của nó.
Hỏi ChatGPT tùy chỉnh về chủ đề ngoài ngày cắt kiến thức
Như bạn có thể thấy, nó đã mô tả chính xác AMD Instinct MI250x, được phát hành sau ngày cắt kiến thức của ChatGPT-3.
Hạn Chế Của ChatGPT Tùy Chỉnh
Mặc dù việc cung cấp dữ liệu tùy chỉnh cho GPT-3.5 mở ra nhiều cách ứng dụng và sử dụng LLM hơn, nhưng vẫn có một số nhược điểm và hạn chế.
Đầu tiên, bạn cần tự cung cấp tất cả dữ liệu. Bạn vẫn có thể truy cập tất cả kiến thức của GPT-3.5 cho đến ngày cắt kiến thức của nó; tuy nhiên, bạn phải tự cung cấp tất cả dữ liệu bổ sung. Điều này có nghĩa là nếu bạn muốn mô hình cục bộ của mình có kiến thức về một chủ đề nhất định trên internet mà GPT-3.5 không biết, bạn sẽ phải tự vào internet và thu thập dữ liệu đó, sau đó lưu nó dưới dạng văn bản trong thư mục data của chatgpt-retrieval-main.
Một vấn đề khác là việc truy vấn ChatGPT theo cách này sẽ mất nhiều thời gian để tải so với việc hỏi trực tiếp ChatGPT.
Cuối cùng, mô hình hiện tại duy nhất có sẵn là GPT-3.5 Turbo. Vì vậy, ngay cả khi bạn có quyền truy cập vào GPT-4, bạn sẽ không thể sử dụng nó để cung cấp sức mạnh cho phiên bản ChatGPT tùy chỉnh của mình.
-
ChatGPT có thể lưu trữ dữ liệu cá nhân lâu dài không?
Không, ChatGPT không thể lưu trữ dữ liệu cá nhân lâu dài. Bạn cần cung cấp dữ liệu tùy chỉnh để sử dụng cá nhân. -
Tôi có thể cập nhật thông tin sau ngày cắt kiến thức của ChatGPT không?
Có, bạn có thể cung cấp dữ liệu tùy chỉnh và thông tin cập nhật sau ngày cắt kiến thức bằng cách sử dụng API của OpenAI và LangChain. -
Lợi ích của việc cung cấp dữ liệu tùy chỉnh cho ChatGPT là gì?
Lợi ích bao gồm tương tác cá nhân hóa, chuyên môn theo lĩnh vực và thông tin hiện tại, chính xác. -
Tôi cần cài đặt những phần mềm nào để cung cấp dữ liệu tùy chỉnh cho ChatGPT?
Bạn cần cài đặt Python3, Git, Microsoft C++ và tải xuống kịch bản ChatGPT-retrieval từ GitHub. -
Khóa API của OpenAI có cần giữ bí mật không?
Có, khóa API của OpenAI nên được giữ bí mật và không chia sẻ với người khác trừ khi bạn muốn họ sử dụng nó. -
Tôi có thể sử dụng GPT-4 để cung cấp sức mạnh cho phiên bản ChatGPT tùy chỉnh của mình không?
Hiện tại, chỉ có mô hình GPT-3.5 Turbo có sẵn cho phiên bản ChatGPT tùy chỉnh. -
Việc truy vấn ChatGPT tùy chỉnh có mất nhiều thời gian hơn không?
Có, việc truy vấn ChatGPT tùy chỉnh thường mất nhiều thời gian hơn so với việc hỏi trực tiếp ChatGPT.
ChatGPT Tùy Chỉnh Rất Tuyệt Nhưng Có Hạn Chế
Việc cung cấp dữ liệu tùy chỉnh cho ChatGPT là một cách mạnh mẽ để khai thác tối đa mô hình này. Thông qua phương pháp này, bạn có thể cung cấp cho mô hình bất kỳ dữ liệu văn bản nào bạn muốn và nhắc nó giống như ChatGPT thông thường, mặc dù có một số hạn chế. Tuy nhiên, điều này sẽ thay đổi trong tương lai khi việc tích hợp dữ liệu của chúng ta với LLM trở nên dễ dàng hơn, cùng với việc truy cập vào mô hình GPT-4 mới nhất.