Πώς να κατεβάσετε και να εγκαταστήσετε το Llama 2 τοπικά

Αναγνώστες σαν εσάς βοηθούν στην υποστήριξη του MUO. Όταν κάνετε μια αγορά χρησιμοποιώντας συνδέσμους στον ιστότοπό μας, ενδέχεται να κερδίσουμε μια προμήθεια θυγατρικών. Διαβάστε περισσότερα.

Η Meta κυκλοφόρησε το Llama 2 το καλοκαίρι του 2023. Η νέα έκδοση του Llama είναι τελειοποιημένη με 40% περισσότερα διακριτικά από το αρχικό μοντέλο Llama, διπλασιάζοντας το μήκος του περιβάλλοντος και ξεπερνώντας σημαντικά άλλα διαθέσιμα μοντέλα ανοιχτού κώδικα. Ο ταχύτερος και ευκολότερος τρόπος πρόσβασης στο Llama 2 είναι μέσω ενός API μέσω μιας διαδικτυακής πλατφόρμας. Ωστόσο, εάν θέλετε την καλύτερη εμπειρία, είναι καλύτερο να εγκαταστήσετε και να φορτώσετε το Llama 2 απευθείας στον υπολογιστή σας.

Έχοντας αυτό κατά νου, δημιουργήσαμε έναν οδηγό βήμα προς βήμα για το πώς να χρησιμοποιήσετε το Text-Generation-WebUI για να φορτώσετε ένα κβαντισμένο Llama 2 LLM τοπικά στον υπολογιστή σας.

Γιατί να εγκαταστήσετε το Llama 2 τοπικά

Υπάρχουν πολλοί λόγοι για τους οποίους οι άνθρωποι επιλέγουν να τρέξουν απευθείας το Llama 2. Κάποιοι το κάνουν για λόγους απορρήτου, άλλοι για προσαρμογή και άλλοι για δυνατότητες εκτός σύνδεσης. Εάν κάνετε έρευνα, βελτιστοποιείτε ή ενσωματώνετε το Llama 2 για τα έργα σας, τότε η πρόσβαση στο Llama 2 μέσω API μπορεί να μην είναι για εσάς. Το θέμα της εκτέλεσης ενός LLM τοπικά στον υπολογιστή σας είναι να μειώσετε την εξάρτηση από αυτό εργαλεία τεχνητής νοημοσύνης τρίτων και χρησιμοποιήστε την τεχνητή νοημοσύνη οποτεδήποτε, οπουδήποτε, χωρίς να ανησυχείτε για τη διαρροή δυνητικά ευαίσθητων δεδομένων σε εταιρείες και άλλους οργανισμούς.

Με αυτά τα λόγια, ας ξεκινήσουμε με τον οδηγό βήμα προς βήμα για την τοπική εγκατάσταση του Llama 2.

Βήμα 1: Εγκαταστήστε το Visual Studio 2019 Build Tool

Για να απλοποιήσουμε τα πράγματα, θα χρησιμοποιήσουμε ένα πρόγραμμα εγκατάστασης με ένα κλικ για το Text-Generation-WebUI (το πρόγραμμα που χρησιμοποιείται για τη φόρτωση του Llama 2 με GUI). Ωστόσο, για να λειτουργήσει αυτό το πρόγραμμα εγκατάστασης, πρέπει να κάνετε λήψη του Εργαλείου δημιουργίας του Visual Studio 2019 και να εγκαταστήσετε τους απαραίτητους πόρους.

Κατεβάστε: Visual Studio 2019 (Ελεύθερος)

Προχωρήστε και κάντε λήψη της κοινοτικής έκδοσης του λογισμικού.
Τώρα εγκαταστήστε το Visual Studio 2019 και, στη συνέχεια, ανοίξτε το λογισμικό. Μόλις ανοίξει, σημειώστε το πλαίσιο Ανάπτυξη επιτραπέζιου υπολογιστή με C++ και πατήστε εγκατάσταση.

Τώρα που έχετε εγκατεστημένη την ανάπτυξη Desktop με C++, ήρθε η ώρα να κάνετε λήψη του προγράμματος εγκατάστασης Text-Generation-WebUI με ένα κλικ.

Βήμα 2: Εγκαταστήστε το Text-Generation-WebUI

Το πρόγραμμα εγκατάστασης με ένα κλικ Text-Generation-WebUI είναι ένα σενάριο που δημιουργεί αυτόματα τους απαιτούμενους φακέλους και ρυθμίζει το περιβάλλον Conda και όλες τις απαραίτητες απαιτήσεις για την εκτέλεση ενός μοντέλου AI.

Για να εγκαταστήσετε το σενάριο, πραγματοποιήστε λήψη του προγράμματος εγκατάστασης με ένα κλικ κάνοντας κλικ στο Κώδικας > Λήψη ZIP.

Κατεβάστε: Text-Generation-WebUI Installer (Ελεύθερος)

Μετά τη λήψη, εξαγάγετε το αρχείο ZIP στην τοποθεσία που προτιμάτε και, στη συνέχεια, ανοίξτε τον φάκελο που έχει εξαχθεί.
Μέσα στο φάκελο, κάντε κύλιση προς τα κάτω και αναζητήστε το κατάλληλο πρόγραμμα εκκίνησης για το λειτουργικό σας σύστημα. Εκτελέστε τα προγράμματα κάνοντας διπλό κλικ στην κατάλληλη δέσμη ενεργειών.
- Εάν είστε σε Windows, επιλέξτε start_windows αρχείο δέσμης
- για MacOS, επιλέξτε start_macos σενάριο κελύφους
- για Linux, start_linux σενάριο κελύφους.
Το antivirus σας μπορεί να δημιουργήσει μια ειδοποίηση. είναι εντάξει. Η προτροπή είναι απλώς ένα ψευδώς θετικό antivirus για την εκτέλεση ενός αρχείου δέσμης ή σεναρίου. Κάντε κλικ στο Τρέξε πάντως .
Θα ανοίξει ένα τερματικό και θα ξεκινήσει η εγκατάσταση. Από νωρίς, η εγκατάσταση θα σταματήσει και θα σας ρωτήσει ποια GPU χρησιμοποιείτε. Επιλέξτε τον κατάλληλο τύπο GPU που είναι εγκατεστημένο στον υπολογιστή σας και πατήστε enter. Για όσους δεν διαθέτουν ειδική κάρτα γραφικών, επιλέξτε Κανένα (θέλω να εκτελώ μοντέλα σε λειτουργία CPU) . Λάβετε υπόψη ότι η εκτέλεση σε λειτουργία CPU είναι πολύ πιο αργή σε σύγκριση με την εκτέλεση του μοντέλου με αποκλειστική GPU.
Μόλις ολοκληρωθεί η ρύθμιση, μπορείτε πλέον να εκκινήσετε τοπικά το Text-Generation-WebUI. Μπορείτε να το κάνετε ανοίγοντας το πρόγραμμα περιήγησης ιστού που προτιμάτε και εισάγοντας την παρεχόμενη διεύθυνση IP στη διεύθυνση URL.
Το WebUI είναι τώρα έτοιμο για χρήση.

Ωστόσο, το πρόγραμμα είναι μόνο ένα μοντέλο φόρτωσης. Ας κατεβάσουμε το Llama 2 για να ξεκινήσει το μοντέλο φόρτωσης.

Βήμα 3: Κατεβάστε το μοντέλο Llama 2

Υπάρχουν αρκετά πράγματα που πρέπει να λάβετε υπόψη όταν αποφασίζετε ποια επανάληψη του Llama 2 χρειάζεστε. Αυτά περιλαμβάνουν παραμέτρους, κβαντοποίηση, βελτιστοποίηση υλικού, μέγεθος και χρήση. Όλες αυτές οι πληροφορίες θα εμφανίζονται στο όνομα του μοντέλου.

Παράμετροι: Ο αριθμός των παραμέτρων που χρησιμοποιούνται για την εκπαίδευση του μοντέλου. Οι μεγαλύτερες παράμετροι κάνουν πιο ικανά μοντέλα αλλά με κόστος απόδοσης.
Χρήση: Μπορεί να είναι τυπικό ή chat. Ένα μοντέλο συνομιλίας έχει βελτιστοποιηθεί ώστε να χρησιμοποιείται ως chatbot όπως το ChatGPT, ενώ το τυπικό είναι το προεπιλεγμένο μοντέλο.
Βελτιστοποίηση υλικού: Αναφέρεται στο υλικό που εκτελεί καλύτερα το μοντέλο. Το GPTQ σημαίνει ότι το μοντέλο είναι βελτιστοποιημένο για να εκτελείται σε αποκλειστική GPU, ενώ το GGML έχει βελτιστοποιηθεί για να τρέχει σε CPU.
Κβαντισμός: Δηλώνει την ακρίβεια των βαρών και των ενεργοποιήσεων σε ένα μοντέλο. Για την εξαγωγή συμπερασμάτων, η ακρίβεια q4 είναι η βέλτιστη.
Μέγεθος: Αναφέρεται στο μέγεθος του συγκεκριμένου μοντέλου.

Λάβετε υπόψη ότι ορισμένα μοντέλα ενδέχεται να έχουν διαφορετική διάταξη και ενδέχεται να μην εμφανίζονται καν οι ίδιοι τύποι πληροφοριών. Ωστόσο, αυτός ο τύπος σύμβασης ονομασίας είναι αρκετά κοινός στο Πρόσωπο αγκαλιάς Μοντέλο βιβλιοθήκης, επομένως αξίζει να το κατανοήσετε.

Σε αυτό το παράδειγμα, το μοντέλο μπορεί να αναγνωριστεί ως ένα μεσαίου μεγέθους μοντέλο Llama 2 εκπαιδευμένο σε 13 δισεκατομμύρια παραμέτρους βελτιστοποιημένες για εξαγωγή συμπερασμάτων συνομιλίας χρησιμοποιώντας μια αποκλειστική CPU.

Για όσους λειτουργούν με αποκλειστική GPU, επιλέξτε α GPTQ μοντέλο, ενώ για όσους χρησιμοποιούν CPU, επιλέξτε GGML . Εάν θέλετε να συνομιλήσετε με το μοντέλο όπως θα κάνατε με το ChatGPT, επιλέξτε κουβέντα , αλλά αν θέλετε να πειραματιστείτε με το μοντέλο με τις πλήρεις δυνατότητές του, χρησιμοποιήστε το πρότυπο μοντέλο. Όσον αφορά τις παραμέτρους, να ξέρετε ότι η χρήση μεγαλύτερων μοντέλων θα προσφέρει καλύτερα αποτελέσματα σε βάρος της απόδοσης. Προσωπικά θα σας συνιστούσα να ξεκινήσετε με ένα μοντέλο 7B. Όσον αφορά την κβαντοποίηση, χρησιμοποιήστε το q4, καθώς είναι μόνο για εξαγωγή συμπερασμάτων.

Κατεβάστε: GGML (Ελεύθερος)

Κατεβάστε: GPTQ (Ελεύθερος)

Τώρα που ξέρετε ποια επανάληψη του Llama 2 χρειάζεστε, προχωρήστε και κατεβάστε το μοντέλο που θέλετε.

Στην περίπτωσή μου, καθώς το εκτελώ σε ultrabook, θα χρησιμοποιήσω ένα μοντέλο GGML βελτιωμένο για συνομιλία, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Αφού ολοκληρωθεί η λήψη, τοποθετήστε το μοντέλο μέσα text-generation-webui-main > μοντέλα .

Τώρα που έχετε κατεβάσει το μοντέλο σας και το έχετε τοποθετήσει στο φάκελο μοντέλου, ήρθε η ώρα να διαμορφώσετε το πρόγραμμα φόρτωσης μοντέλων.

Βήμα 4: Διαμόρφωση Text-Generation-WebUI

Τώρα, ας ξεκινήσουμε τη φάση της διαμόρφωσης.

Για άλλη μια φορά, ανοίξτε το Text-Generation-WebUI εκτελώντας το start_(το λειτουργικό σας σύστημα) αρχείο (δείτε τα προηγούμενα βήματα παραπάνω).
Στις καρτέλες που βρίσκονται πάνω από το GUI, κάντε κλικ Μοντέλο. Κάντε κλικ στο κουμπί ανανέωσης στο αναπτυσσόμενο μενού μοντέλου και επιλέξτε το μοντέλο σας.
Τώρα κάντε κλικ στο αναπτυσσόμενο μενού του Μοντέλο φορτωτή και επιλέξτε AutoGPTQ για όσους χρησιμοποιούν μοντέλο GTPQ και ctransformers για όσους χρησιμοποιούν μοντέλο GGML. Τέλος, κάντε κλικ στο Φορτώνω για να φορτώσετε το μοντέλο σας.
Για να χρησιμοποιήσετε το μοντέλο, ανοίξτε την καρτέλα Συνομιλία και ξεκινήστε τη δοκιμή του μοντέλου.

Συγχαρητήρια, φορτώσατε με επιτυχία το Llama2 στον τοπικό σας υπολογιστή!

Δοκιμάστε άλλα LLM

Τώρα που ξέρετε πώς να εκτελείτε το Llama 2 απευθείας στον υπολογιστή σας χρησιμοποιώντας το Text-Generation-WebUI, θα πρέπει επίσης να μπορείτε να εκτελέσετε άλλα LLM εκτός από το Llama. Απλώς θυμηθείτε τις συμβάσεις ονομασίας των μοντέλων και ότι μόνο κβαντισμένες εκδόσεις μοντέλων (συνήθως ακρίβειας q4) μπορούν να φορτωθούν σε κανονικούς υπολογιστές. Πολλά κβαντισμένα LLM είναι διαθέσιμα στο HuggingFace. Εάν θέλετε να εξερευνήσετε άλλα μοντέλα, αναζητήστε το TheBloke στη βιβλιοθήκη μοντέλων του HuggingFace και θα βρείτε πολλά διαθέσιμα μοντέλα.