GPT-5: 4 νέες δυνατότητες που θέλουμε να δούμε

Γρήγοροι Σύνδεσμοι

Τι είναι το GPT-5 του OpenAI;

Περισσότερη πολυτροπικότητα

Μεγαλύτερο και πιο αποτελεσματικό παράθυρο περιβάλλοντος

Πράκτορες GPT

Λιγότερες ψευδαισθήσεις

Το GPT-4 του OpenAI είναι αυτή τη στιγμή το καλύτερο εργαλείο παραγωγής τεχνητής νοημοσύνης στην αγορά, αλλά αυτό δεν σημαίνει ότι δεν κοιτάμε το μέλλον. Με τον Διευθύνοντα Σύμβουλο του OpenAI, Sam Altman, να δίνει τακτικά υποδείξεις για το GPT-5, φαίνεται πιθανό να δούμε σύντομα ένα νέο, αναβαθμισμένο μοντέλο AI.

MUO Το βίντεο της ημέρας ΚΥΛΙΣΤΕ ΓΙΑ ΝΑ ΣΥΝΕΧΙΣΕΤΕ ΜΕ ΠΕΡΙΕΧΟΜΕΝΟ

Τουλάχιστον, αυτό ελπίζουμε. Δεν υπάρχει συγκεκριμένη ημερομηνία κυκλοφορίας για το GPT-5 και τα περισσότερα από αυτά που πιστεύουμε ότι γνωρίζουμε προέρχονται από τη συγκέντρωση άλλων πληροφοριών και την προσπάθεια σύνδεσης των κουκκίδων.

Ωστόσο, ανεξάρτητα από την ημερομηνία λήξης, υπάρχουν μερικά βασικά χαρακτηριστικά που θέλουμε να δούμε όταν κυκλοφορήσει το GPT-5.

Τι είναι το GPT-5 του OpenAI;

Το GPT-5 είναι ο πολυαναμενόμενος διάδοχος του μοντέλου GPT-4 AI του OpenAI, το οποίο ευρέως αναμένεται να είναι το πιο ισχυρό μοντέλο παραγωγής στην αγορά. Αν και δεν υπάρχει επί του παρόντος επίσημη ημερομηνία κυκλοφορίας για το GPT-5, υπάρχουν ενδείξεις ότι θα μπορούσε να κυκλοφορήσει ήδη από το καλοκαίρι του 2024. Πολύ λίγες λεπτομέρειες για το μοντέλο είναι γνωστές αυτή τη στιγμή, αλλά πολλά πράγματα μπορούν να ειπωθούν με κάποιο ποσό βεβαιότητα:

Το OpenAI έχει καταθέσει ένα εμπορικό σήμα για το όνομα με το Γραφείο Ευρεσιτεχνιών και Εμπορικών Σημάτων των Ηνωμένων Πολιτειών .
Αρκετά στελέχη του OpenAI έχουν συζητήσει ή υπαινιχθεί για τις πιθανές δυνατότητες του μοντέλου.
Ο Διευθύνων Σύμβουλος της OpenAI, Sam Altman, ανέφερε επανειλημμένα το μοντέλο κατά τη διάρκεια ενός Μαρτίου του 2024 Συνέντευξη στο YouTube με τον Lex Fridman.

Όλα αυτά δείχνουν μια συναρπαστική πραγματικότητα: το GPT-5 έρχεται! Τούτου λεχθέντος, πολλά πράγματα είναι εικασίες σε αυτό το σημείο. Αλλά υπάρχουν μερικά πράγματα που ελπίζουμε να δούμε και είμαστε αρκετά σίγουροι ότι θα δούμε στο μοντέλο. Εδώ είναι μερικά από αυτά:

τι τραγούδι υπάρχει σε αυτό το βίντεο

1. Περισσότερη Πολυτροπικότητα

Μία από τις πιο συναρπαστικές βελτιώσεις στην οικογένεια μοντέλων AI GPT ήταν η πολυτροπικότητα. Για λόγους σαφήνειας, η πολυτροπικότητα είναι η ικανότητα ενός μοντέλου τεχνητής νοημοσύνης να επεξεργάζεται περισσότερα από κείμενο, αλλά και άλλους τύπους εισόδων όπως εικόνες, ήχος και βίντεο. Η πολυτροπικότητα θα είναι ένα σημαντικό σημείο αναφοράς προόδου για την οικογένεια μοντέλων GPT στο μέλλον.

Με το GPT-4 να είναι ήδη έμπειρο στο χειρισμό εισόδων και εξόδων εικόνας, οι βελτιώσεις που καλύπτουν την επεξεργασία ήχου και βίντεο είναι το επόμενο ορόσημο για το OpenAI και το GPT-5 είναι ένα καλό μέρος για να ξεκινήσετε. Η Google κάνει ήδη σοβαρή πρόοδο με αυτό το είδος πολυτροπικότητας με το μοντέλο Gemini AI. Θα ήταν ασυνήθιστο για το OpenAI να μην απαντήσει. Αλλά, φυσικά, μην παίρνετε τα λόγια μας. Στο δικό του Unconfuse Me podcast [Μετάγραφο PDF], ο Μπιλ Γκέιτς ρώτησε τον Διευθύνοντα Σύμβουλο του OpenAI, Sam Altman, ποια ορόσημα προέβλεψε για τη σειρά GPT τα επόμενα δύο χρόνια. Η πρώτη του απάντηση; Επεξεργασία βίντεο.

Έτσι, για το GPT-5, αναμένουμε να μπορούμε να παίζουμε με βίντεο—να ανεβάζουμε βίντεο ως προτροπές, να δημιουργούμε βίντεο εν κινήσει, να επεξεργαζόμαστε βίντεο με μηνύματα κειμένου, να εξάγουμε τμήματα από βίντεο και να βρίσκουμε συγκεκριμένες σκηνές από μεγάλα αρχεία βίντεο. Αναμένουμε ότι θα είμαστε σε θέση να κάνουμε παρόμοια πράγματα με τα αρχεία ήχου. Είναι μεγάλο το ερώτημα, ναι. Αλλά δεδομένου του πόσο γρήγορη είναι η ανάπτυξη AI, είναι μια πολύ λογική προσδοκία.

2. Μεγαλύτερο και πιο αποτελεσματικό παράθυρο περιβάλλοντος

Ralf Jhetner Borja/ flickr

Παρά το γεγονός ότι είναι ένα από τα πιο εξελιγμένα μοντέλα τεχνητής νοημοσύνης στην αγορά, η οικογένεια μοντέλων τεχνητής νοημοσύνης GPT διαθέτει ένα από τα μικρότερα παράθυρα περιβάλλοντος. Για παράδειγμα, Το Anthropic's Claude 3 διαθέτει ένα παράθυρο περιβάλλοντος με 200.000 διακριτικά , ενώ Ο Gemini της Google μπορεί να επεξεργαστεί ένα εκπληκτικό 1 εκατομμύριο μάρκες (128.000 για τυπική χρήση). Αντίθετα, το GPT-4 έχει ένα σχετικά μικρότερο παράθυρο περιβάλλοντος 128.000 tokens, με περίπου 32.000 tokens ή λιγότερα διαθέσιμα ρεαλιστικά για χρήση σε διεπαφές όπως το ChatGPT.

Με την προηγμένη πολυτροπικότητα να εμφανίζεται στην εικόνα, ένα βελτιωμένο παράθυρο περιβάλλοντος είναι σχεδόν αναπόφευκτο. Ίσως μια αύξηση κατά δύο ή τέσσερις θα ήταν αρκετή, αλλά ελπίζουμε να δούμε κάτι σαν συντελεστή δέκα. Αυτό θα επιτρέψει στο GPT-5 να επεξεργάζεται πολύ περισσότερες πληροφορίες με πολύ πιο αποτελεσματικό τρόπο. Τώρα, ένα μεγαλύτερο παράθυρο περιβάλλοντος δεν σημαίνει πάντα καλύτερο. Έτσι, αντί να αυξάνουμε απλώς το παράθυρο περιβάλλοντος, θα θέλαμε να δούμε αυξημένη αποτελεσματικότητα της επεξεργασίας περιβάλλοντος.

Βλέπετε, ένα μοντέλο μπορεί να έχει ένα εκατομμύριο διακριτικό παράθυρο περιβάλλοντος (χωρητικότητας περίπου 700.000 λέξεων), αλλά δεν μπορεί να παράγει μια ολοκληρωμένη περίληψη όταν του ζητείται να συνοψίσει ένα βιβλίο 500.000 λέξεων, επειδή δεν μπορεί να επεξεργαστεί επαρκώς το σύνολο του περιβάλλοντος παρά το ικανότητα να το κάνει θεωρητικά. Το ότι μπορείτε να διαβάσετε ένα βιβλίο 500 χιλιάδων λέξεων δεν σημαίνει ότι μπορείτε να ανακαλέσετε τα πάντα σε αυτό ή να το επεξεργαστείτε με λογική.

3. Πράκτορες GPT

Koshiro K/ Shutterstock

Ίσως μια από τις πιο συναρπαστικές δυνατότητες μιας κυκλοφορίας GPT-5 είναι το ντεμπούτο του GPT Agents. Ενώ ο όρος 'game-changer' πιθανότατα έχει χρησιμοποιηθεί υπερβολικά στην τεχνητή νοημοσύνη, οι πράκτορες GPT θα μπορούσαν πραγματικά να αλλάξουν το παιχνίδι με κάθε πρακτική έννοια. Αλλά πόσο θα άλλαζε αυτό το παιχνίδι;

Επί του παρόντος, μοντέλα τεχνητής νοημοσύνης όπως το GPT-4 μπορούν να σας βοηθήσουν να ολοκληρώσετε μια εργασία. Μπορούν να γράψουν ένα email, να κάνουν ένα αστείο, να λύσουν ένα μαθηματικό πρόβλημα ή να συντάξουν μια ανάρτηση ιστολογίου για εσάς. Ωστόσο, μπορούν να κάνουν μόνο τη συγκεκριμένη εργασία και δεν μπορούν να ολοκληρώσουν ένα σύνολο σχετικών εργασιών που θα ήταν απαραίτητες για την ολοκλήρωση της εργασίας σας.

Ας υποθέσουμε ότι είστε προγραμματιστής ιστού. Ως μέρος της δουλειάς σας, αναμένεται να κάνετε πολλά πράγματα: σχεδίαση, σύνταξη κώδικα, αντιμετώπιση προβλημάτων και πολλά άλλα. Προς το παρόν, μπορείτε να αναθέσετε μόνο ένα μέρος αυτών των εργασιών σε μοντέλα τεχνητής νοημοσύνης κάθε φορά. Ίσως μπορείτε να ζητήσετε από το μοντέλο GPT-4 να γράψει έναν κωδικό για την αρχική σελίδα, μετά να του ζητήσετε να το κάνει για τη σελίδα επαφής και μετά για τη σελίδα Πληροφορίες κ.λπ. Θα χρειαστεί να ολοκληρώσετε αυτές τις εργασίες επαναληπτικά. Και υπάρχουν εργασίες που τα μοντέλα απλά δεν μπορούν να ολοκληρώσουν.

πότε δημιουργήθηκε ο λογαριασμός μου στο gmail;

Αυτή η επαναληπτική διαδικασία παρότρυνσης μοντέλων τεχνητής νοημοσύνης για συγκεκριμένες δευτερεύουσες εργασίες είναι χρονοβόρα και αναποτελεσματική. Σε αυτό το σενάριο, εσείς — ο προγραμματιστής ιστού — είστε ο ανθρώπινος παράγοντας που είναι υπεύθυνος για τον συντονισμό και την προτροπή των μοντέλων τεχνητής νοημοσύνης μία εργασία τη φορά μέχρι να ολοκληρώσετε ένα ολόκληρο σύνολο σχετικών εργασιών.

Το GPT Agents υπόσχεται εξειδικευμένα ρομπότ εμπειρογνωμόνων που συντονίζονται, ελπίζουμε, από το GPT-5, ικανά να αυτοπροτρέπονται και να αντιμετωπίζουν όλα τα υποσύνολα μιας σύνθετης εργασίας αυτόνομα. Έμφαση στην «αυτοκίνητη» και την «αυτόνομη».

πώς να διορθώσετε τα νεκρά pixel στην τηλεόραση

Έτσι, εάν το GPT-5 αποστέλλεται με GPT Agents, θα μπορούσατε να του ζητήσετε να 'δημιουργήσει έναν ιστότοπο χαρτοφυλακίου για τον Maxwell Timothy' αντί απλώς 'να μου γράψει έναν κωδικό για την αρχική σελίδα'. Στη συνέχεια, το GPT-5 θα μπορούσε θεωρητικά να αυτο-προτρέπει επικαλούμενους ειδικούς πράκτορες τεχνητής νοημοσύνης για να χειριστεί τις διάφορες δευτερεύουσες εργασίες που απαιτούνται για την κατασκευή ενός ιστότοπου. Μπορεί να επικαλεστεί ένα GPT για να διαγράψει τον ιστό για πληροφορίες σχετικά με τον Maxwell Timothy, έναν άλλο πράκτορα για να γράψει τον κώδικα για διαφορετικές σελίδες, έναν άλλο πράκτορα για τη δημιουργία και τη βελτιστοποίηση εικόνων, ακόμη και έναν άλλο πράκτορα AI για την ανάπτυξη του ιστότοπου, όλα αυτά χωρίς την ανάγκη επαναλαμβανόμενου ανθρώπου προτρέποντας.

4. Λιγότερες ψευδαισθήσεις

Αν και το OpenAI έχει προχωρήσει πολύ στην αντιμετώπιση των παραισθήσεων στα μοντέλα AI, η αληθινή λυδία λίθος για το GPT-5 θα είναι η ικανότητά του να αντιμετωπίζει το επίμονο ζήτημα των παραισθήσεων, το οποίο έχει εμποδίσει την ευρεία υιοθέτηση της τεχνητής νοημοσύνης σε υψηλά στοιχήματα. τομείς κρίσιμους για την ασφάλεια, όπως η υγειονομική περίθαλψη, η αεροπορία και η ασφάλεια στον κυβερνοχώρο. Όλοι αυτοί είναι τομείς που θα ωφεληθούν σε μεγάλο βαθμό από τη βαριά εμπλοκή της τεχνητής νοημοσύνης, αλλά επί του παρόντος αποφεύγουν οποιαδήποτε σημαντική υιοθέτηση.

Για λόγους σαφήνειας, η ψευδαίσθηση σε αυτό το πλαίσιο αναφέρεται σε καταστάσεις όπου το μοντέλο AI δημιουργεί και παρουσιάζει εύλογες αλλά πλήρως κατασκευασμένες πληροφορίες με υψηλό βαθμό εμπιστοσύνης.

Φανταστείτε ένα σενάριο όπου το GPT-4 ενσωματώνεται σε ένα διαγνωστικό σύστημα για την ανάλυση των συμπτωμάτων των ασθενών και των ιατρικών εκθέσεων. Μια ψευδαίσθηση θα μπορούσε να οδηγήσει το AI να παράσχει με σιγουριά μια εσφαλμένη διάγνωση ή να συστήσει μια δυνητικά επικίνδυνη πορεία θεραπείας βασισμένη σε φανταστικά γεγονότα και ψευδή λογική. Οι συνέπειες ενός τέτοιου λάθους στον ιατρικό τομέα θα μπορούσαν να είναι καταστροφικές.

Παρόμοιες επιφυλάξεις ισχύουν και για άλλους τομείς υψηλών επιπτώσεων, όπως η αεροπορία, η πυρηνική ενέργεια, οι θαλάσσιες επιχειρήσεις και η ασφάλεια στον κυβερνοχώρο. Δεν περιμένουμε το GPT-5 να λύσει πλήρως το πρόβλημα της ψευδαίσθησης, αλλά περιμένουμε να μειώσει σημαντικά την πιθανότητα τέτοιων περιστατικών.

Καθώς περιμένουμε με ανυπομονησία την επίσημη κυκλοφορία αυτού του πολυαναμενόμενου μοντέλου AI, ένα πράγμα είναι σίγουρο: το GPT-5 έχει τη δυνατότητα να επαναπροσδιορίσει τα όρια του τι είναι δυνατό με την τεχνητή νοημοσύνη, εγκαινιάζοντας μια νέα εποχή συνεργασίας και καινοτομίας ανθρώπου-μηχανής.