[Hướng dẫn] Cài đặt và sử dụng privateGPT
PrivateGPT là phương pháp sử dụng chatGPT mà không cần kết nối internet, giúp người dùng tránh được rủi ro về mặt dữ liệu. PrivateGPT hoạt động trên máy tính cục bộ, giúp người dùng tương tác với các mô hình xử lý ngôn ngữ tự nhiên mà không cần thông qua các dịch vụ đám mây.
Bài viết dưới đây của WorkBetter sẽ hướng dẫn bạn cài đặt và sử dụng privateGPT, giúp bạn đảm bảo cho sự riêng tư và an toàn khi sử dụng.
I. Thông tin chung
- Độ khó: 5/10
- Yêu cầu chung
- Máy tính cá nhân
- VsCode
- Python >= 3.10
- C++ compiler: Nếu gặp lỗi khi build wheel trong khi dùng
pip install
có thể sẽ cần phải cài đặt C++ compiler trên máy tính cá nhân.
- Cài đặt Visual Studio 2022.
- Đảm bảo các thành phần sau được lựa chọn khi cài đặt:
+ Universal Windows Platform development
+ C++ CMake tools for Windows
- Tải về MinGW installer tại: MinGW website.
- Chạy installer và chọn gcc
II. Hướng dẫn cài đặt privateGPT
1. Tải thư viện và cài đặt môi trường
- Tạo thư mục để lưu trữ privateGPT
- Mở terminal trong thư mục vừa tạo, sử dụng lệnh:
git clone https://github.com/imartinez/privateGPT.git .
- Tạo thư mục mới mang tên models và tải mô hình xử lý ngôn ngữ tự nhiên mong muốn vào trong thư mục đó. Tại hướng dẫn này, chúng ta sử dụng mô hình GPT4ALL.
- Link tải: https://gpt4all.io/models/ggml-gpt4all-j-v1.3-groovy.bin
- Tạo file .env ở trong thư mục gốc lưu trữ privateGPT, thêm nội dung vào file .env như sau:
PERSIST_DIRECTORY=db
MODEL_TYPE=GPT4All
MODEL_PATH=models/ggml-gpt4all-j-v1.3-groovy.bin
EMBEDDINGS_MODEL_NAME=all-MiniLM-L6-v2
MODEL_N_CTX=1000
- Cài đặt các packages hỗ trợ của python với lệnh sau:
pip install -r requirements.txt
2. Huấn luyện mô hình sử dụng dataset
- Trong thư mục
source_documents
, bạn có thể thêm các dataset cá nhân theo ý muốn với các định dạng được hỗ trợ như sau:
.csv
: CSV,
.docx
: Word Document,
.doc
: Word Document,
.enex
: EverNote,
.eml
: Email,
.epub
: EPub,
.html
: HTML File,
.md
: Markdown,
.msg
: Outlook Message,
.odt
: Open Document Text
.pdf
: Portable Document Format (PDF),
.pptx
: PowerPoint Document,
.ppt
: PowerPoint Document,
.txt
: Text file (UTF-8
- Tiếp theo, chạy lệnh sau để nhập dữ liệu vào hệ thống:
python ingest.py
- Đầu ra của lệnh trên sẽ có dạng như sau:
Creating new vectorstore
Loading documents from source_documents
Loading new documents: 100%|██████████████████████| 1/1 [00:01<00:00, 1.73s/it]
Loaded 1 new documents from source_documents
Split into 90 chunks of text (max. 500 tokens each)
Creating embeddings. May take some minutes...
Using embedded DuckDB with persistence: data will be stored in: db
Ingestion complete! You can now run privateGPT.py to query your documents
- Quá trình này sẽ tạo ra folder db chứa các vectorstore, thời gian chạy sẽ phụ thuộc vào kích thước file cũng như cấu hình máy tính của bạn. Bạn cũng có thể sử dụng bao nhiêu dataset tùy ý và chúng sẽ được tích lũy vào db.
Lưu ý: Trong quá trình huấn luyện, sẽ không có dữ liệu nào được truyền đi khỏi máy tính của bạn nên bạn có thể nạp thêm dữ liệu mà không cần kết nối internet, ngoại trừ lần nạp dữ liệu đầu tiên khi phải tải xuống các mô hình nhúng.
3. Hỏi đáp dựa theo dữ liệu đã huấn luyện
- Để tiến hành hỏi - đáp mô hình, sử dụng lệnh sau trong terminal:
python privateGPT.py
- Sau đó chờ đợi chương trình chạy và yêu cầu bạn nhập câu hỏi đầu vào:
> Enter a query:
- Sau khi nhập xong câu hỏi đầu vào, nhấn Enter và chờ đợi trong khi mô hình LLM xử lý prompt và chuẩn bị câu trả lời. Thời gian chờ đợi của quá trình này phụ thuộc vào cấu hình máy tính của bạn.
- Muốn rời khỏi và đóng chương trình, nhập
exit
Lưu ý: Quá trình hỏi - đáp này không phụ thuộc vào kết nối internet, bạn có thể tắt internet khi hỏi - đáp.
III. Tài liệu nên đọc
- [Hướng dẫn] Tạo bot ChatGPT giúp tư vấn order thực đơn cho các cửa hàng F&B: Link
- [Hướng dẫn] Tạo GPT Salebot có phong cách trả lời hài hước: Link
- [Hướng dẫn] Tạo bot ChatGPT quảng bá du lịch địa phương trên Website: Link
- [Hướng dẫn] Tạo video giới thiệu sản phẩm bằng AI chỉ trong 10p: Link
IV. Thông tin liên hệ
Công ty Cổ phần Công nghệ và Truyền thông AIV Group
Địa chỉ: Tầng 23, Tòa nhà EuroWindow, số 27 Trần Duy Hưng, Trung Hòa, Cầu Giấy, Hà Nội
Website: https://aivgroup.vn
Email: [email protected]
Điện thoại: 0931 458 189