Contents
Trong mùa hè năm 2023, Meta đã phát hành Llama 2, phiên bản mới của mô hình Llama với số lượng token được tinh chỉnh tăng thêm 40% so với phiên bản gốc, gấp đôi độ dài ngữ cảnh và vượt trội hơn hẳn so với các mô hình mã nguồn mở khác. Cách nhanh nhất và dễ dàng nhất để truy cập Llama 2 là thông qua API trên nền tảng trực tuyến. Tuy nhiên, nếu bạn muốn có trải nghiệm tốt nhất, việc cài đặt và tải Llama 2 trực tiếp trên máy tính của bạn là lựa chọn tối ưu.
Lý Do Cài Đặt Llama 2 Trên Máy Tính Cá Nhân
Có nhiều lý do khiến mọi người chọn chạy Llama 2 trực tiếp trên máy tính của mình. Một số người làm điều này vì lý do bảo mật, một số khác vì muốn tùy chỉnh, và một số khác thì cần khả năng hoạt động offline. Nếu bạn đang nghiên cứu, tinh chỉnh hoặc tích hợp Llama 2 cho các dự án của mình, thì việc truy cập Llama 2 qua API có thể không phù hợp. Việc chạy một mô hình ngôn ngữ lớn (LLM) trực tiếp trên máy tính cá nhân giúp giảm sự phụ thuộc vào các công cụ AI của bên thứ ba và sử dụng AI bất cứ lúc nào, bất cứ nơi đâu mà không lo lắng về việc rò rỉ dữ liệu nhạy cảm cho các công ty và tổ chức khác.
Dưới đây là hướng dẫn chi tiết cách sử dụng Text-Generation-WebUI để tải Llama 2 LLM đã được lượng tử hóa lên máy tính cá nhân của bạn.
Bước 1: Cài Đặt Visual Studio 2019 Build Tool
Để đơn giản hóa, chúng ta sẽ sử dụng trình cài đặt một cú nhấp chuột cho Text-Generation-WebUI (chương trình được sử dụng để tải Llama 2 với giao diện đồ họa). Tuy nhiên, để trình cài đặt này hoạt động, bạn cần tải xuống và cài đặt Visual Studio 2019 Build Tool cùng với các tài nguyên cần thiết.
Tải xuống: Visual Studio 2019 (Miễn phí)
- Hãy tải xuống phiên bản cộng đồng của phần mềm.
- Sau đó, cài đặt Visual Studio 2019, sau đó mở phần mềm. Khi mở, hãy chọn ô Phát triển máy tính để bàn với C++ và nhấn cài đặt.
Cài đặt phát triển máy tính để bàn với C++
Khi bạn đã cài đặt Phát triển máy tính để bàn với C++, đã đến lúc tải xuống trình cài đặt một cú nhấp chuột của Text-Generation-WebUI.
Bước 2: Cài Đặt Text-Generation-WebUI
Trình cài đặt một cú nhấp chuột của Text-Generation-WebUI là một kịch bản tự động tạo các thư mục cần thiết và thiết lập môi trường Conda cùng tất cả các yêu cầu cần thiết để chạy một mô hình AI.
Để cài đặt kịch bản này, hãy tải xuống trình cài đặt một cú nhấp chuột bằng cách nhấp vào Code > Tải xuống ZIP.
Tải xuống: Trình cài đặt Text-Generation-WebUI (Miễn phí)
- Sau khi tải xuống, giải nén tệp ZIP vào vị trí bạn muốn, sau đó mở thư mục đã giải nén.
- Trong thư mục, cuộn xuống và tìm chương trình khởi động phù hợp với hệ điều hành của bạn. Chạy các chương trình bằng cách nhấp đúp vào kịch bản phù hợp.
- Nếu bạn đang sử dụng Windows, chọn tệp batch start_windows
- Đối với MacOS, chọn kịch bản shell start_macos
- Đối với Linux, kịch bản shell start_linux.
- Phần mềm diệt virus của bạn có thể tạo ra một cảnh báo; điều này không sao. Đây chỉ là một cảnh báo sai của phần mềm diệt virus khi chạy tệp batch hoặc kịch bản. Nhấp vào Chạy dù sao.
- Một cửa sổ terminal sẽ mở ra và bắt đầu cài đặt. Sớm thôi, cài đặt sẽ tạm dừng và hỏi bạn đang sử dụng GPU nào. Chọn loại GPU phù hợp đã được cài đặt trên máy tính của bạn và nhấn enter. Đối với những người không có card đồ họa chuyên dụng, chọn None (Tôi muốn chạy mô hình ở chế độ CPU). Lưu ý rằng việc chạy ở chế độ CPU sẽ chậm hơn nhiều so với việc chạy mô hình với một GPU chuyên dụng.
Chọn phần cứng GPU đã cài đặt
- Khi cài đặt hoàn tất, bạn có thể khởi chạy Text-Generation-WebUI trên máy tính cá nhân của mình. Bạn có thể làm điều này bằng cách mở trình duyệt web ưa thích của bạn và nhập địa chỉ IP được cung cấp trên URL.
Cách khởi chạy Text-Generation-WebUI
- Giao diện WebUI đã sẵn sàng để sử dụng.
Tuy nhiên, chương trình này chỉ là một trình tải mô hình. Hãy tải xuống Llama 2 để trình tải mô hình có thể khởi chạy.
Bước 3: Tải Xuống Mô Hình Llama 2
Có khá nhiều điều cần xem xét khi quyết định phiên bản nào của Llama 2 bạn cần. Những điều này bao gồm thông số, lượng tử hóa, tối ưu hóa phần cứng, kích thước và mục đích sử dụng. Tất cả thông tin này sẽ được ghi rõ trong tên mô hình.
- Thông số: Số lượng thông số được sử dụng để huấn luyện mô hình. Thông số lớn hơn tạo ra mô hình có khả năng cao hơn nhưng với chi phí hiệu suất.
- Mục đích sử dụng: Có thể là tiêu chuẩn hoặc chat. Mô hình chat được tối ưu hóa để sử dụng như một chatbot như ChatGPT, trong khi mô hình tiêu chuẩn là mô hình mặc định.
- Tối ưu hóa phần cứng: Đề cập đến phần cứng nào chạy mô hình tốt nhất. GPTQ có nghĩa là mô hình được tối ưu hóa để chạy trên GPU chuyên dụng, trong khi GGML được tối ưu hóa để chạy trên CPU.
- Lượng tử hóa: Chỉ ra độ chính xác của trọng số và kích hoạt trong một mô hình. Đối với việc suy luận, độ chính xác q4 là tối ưu.
- Kích thước: Đề cập đến kích thước của mô hình cụ thể.
Lưu ý rằng một số mô hình có thể được sắp xếp khác nhau và thậm chí có thể không có cùng loại thông tin được hiển thị. Tuy nhiên, loại quy ước đặt tên này khá phổ biến trong thư viện mô hình của HuggingFace, vì vậy vẫn đáng để hiểu.
Quy ước đặt tên mô hình của HuggingFace
Trong ví dụ này, mô hình có thể được xác định là một mô hình Llama 2 kích thước trung bình được huấn luyện trên 13 tỷ thông số, được tối ưu hóa cho việc suy luận chat sử dụng CPU chuyên dụng.
Đối với những người sử dụng GPU chuyên dụng, hãy chọn mô hình GPTQ, trong khi đối với những người sử dụng CPU, hãy chọn GGML. Nếu bạn muốn trò chuyện với mô hình như bạn đã làm với ChatGPT, hãy chọn chat, nhưng nếu bạn muốn thử nghiệm với mô hình với toàn bộ khả năng của nó, hãy sử dụng mô hình tiêu chuẩn. Về thông số, hãy biết rằng việc sử dụng các mô hình lớn hơn sẽ cung cấp kết quả tốt hơn với chi phí hiệu suất. Tôi cá nhân khuyên bạn nên bắt đầu với mô hình 7B. Về lượng tử hóa, hãy sử dụng q4, vì nó chỉ dành cho việc suy luận.
Tải xuống: GGML (Miễn phí)
Tải xuống: GPTQ (Miễn phí)
Bây giờ bạn đã biết phiên bản nào của Llama 2 bạn cần, hãy tiến hành tải xuống mô hình bạn muốn.
Trong trường hợp của tôi, vì tôi đang chạy trên một ultrabook, tôi sẽ sử dụng một mô hình GGML được tinh chỉnh cho chat, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
Sau khi tải xuống hoàn tất, hãy đặt mô hình vào text-generation-webui-main > models.
Đặt mô hình Llama 2 vào thư mục mô hình
Bây giờ bạn đã tải xuống mô hình và đặt nó vào thư mục mô hình, đã đến lúc cấu hình trình tải mô hình.
Bước 4: Cấu Hình Text-Generation-WebUI
Bây giờ, hãy bắt đầu giai đoạn cấu hình.
- Một lần nữa, mở Text-Generation-WebUI bằng cách chạy tệp start_(hệ điều hành của bạn) (xem các bước trước đây).
- Trên các tab nằm phía trên giao diện đồ họa, nhấp vào Model. Nhấp vào nút làm mới ở menu thả xuống mô hình và chọn mô hình của bạn.
- Bây giờ nhấp vào menu thả xuống của Trình tải mô hình và chọn AutoGPTQ cho những người sử dụng mô hình GTPQ và ctransformers cho những người sử dụng mô hình GGML. Cuối cùng, nhấp vào Load để tải mô hình của bạn.
- Để sử dụng mô hình, mở tab Chat và bắt đầu thử nghiệm mô hình.
Thử nghiệm Llama 2 trên máy tính cá nhân
Chúc mừng, bạn đã thành công trong việc tải Llama 2 lên máy tính cá nhân của mình!
1. Tại sao tôi nên cài đặt Llama 2 trên máy tính cá nhân thay vì sử dụng API?
Cài đặt Llama 2 trên máy tính cá nhân giúp bảo mật dữ liệu tốt hơn, cho phép tùy chỉnh và khả năng hoạt động offline, giảm sự phụ thuộc vào các công cụ AI của bên thứ ba.
2. Tôi cần cài đặt gì để chạy Text-Generation-WebUI?
Bạn cần cài đặt Visual Studio 2019 Build Tool và tải xuống trình cài đặt một cú nhấp chuột của Text-Generation-WebUI.
3. Làm thế nào để chọn phiên bản Llama 2 phù hợp?
Bạn cần xem xét các yếu tố như thông số, mục đích sử dụng, tối ưu hóa phần cứng, lượng tử hóa và kích thước của mô hình.
4. Tôi có thể chạy Llama 2 trên CPU không?
Có, bạn có thể chạy Llama 2 trên CPU bằng cách sử dụng mô hình GGML, tuy nhiên hiệu suất sẽ chậm hơn so với việc sử dụng GPU.
5. Làm thế nào để bắt đầu sử dụng mô hình sau khi cài đặt?
Sau khi cài đặt và cấu hình, bạn có thể mở tab Chat trong Text-Generation-WebUI và bắt đầu thử nghiệm mô hình.
6. Tôi có thể tải xuống và sử dụng các mô hình khác ngoài Llama 2 không?
Có, bạn có thể tải xuống và sử dụng các mô hình ngôn ngữ lớn khác từ thư viện mô hình của HuggingFace, chỉ cần đảm bảo rằng chúng đã được lượng tử hóa.
7. Tại sao tôi nên sử dụng độ chính xác q4 cho việc suy luận?
Độ chính xác q4 là tối ưu cho việc suy luận vì nó cung cấp sự cân bằng tốt giữa hiệu suất và độ chính xác.
Thử Nghiệm Các Mô Hình Ngôn Ngữ Lớn Khác
Bây giờ bạn đã biết cách chạy Llama 2 trực tiếp trên máy tính của mình bằng cách sử dụng Text-Generation-WebUI, bạn cũng nên có thể chạy các mô hình ngôn ngữ lớn khác ngoài Llama. Chỉ cần nhớ các quy ước đặt tên của mô hình và rằng chỉ có các phiên bản mô hình đã được lượng tử hóa (thường là độ chính xác q4) mới có thể được tải lên các máy tính thông thường. Nhiều mô hình LLM đã được lượng tử hóa có sẵn trên HuggingFace. Nếu bạn muốn khám phá các mô hình khác, hãy tìm TheBloke trong thư viện mô hình của HuggingFace, và bạn sẽ tìm thấy nhiều mô hình có sẵn.