Ποια είναι η διαφορά μεταξύ ASCII και Unicode Text;

Ποια είναι η διαφορά μεταξύ ASCII και Unicode Text;

ASCII και Unicode είναι και τα δύο πρότυπα που αναφέρονται στην ψηφιακή αναπαράσταση του κειμένου, συγκεκριμένα χαρακτήρες που αποτελούν το κείμενο. Ωστόσο, τα δύο πρότυπα διαφέρουν σημαντικά, με πολλές ιδιότητες να αντικατοπτρίζουν την αντίστοιχη σειρά δημιουργίας τους.





Αμερική έναντι του Σύμπαντος

Ο αμερικανικός τυπικός κώδικας για την ανταλλαγή πληροφοριών (ASCII), δεν αποτελεί έκπληξη, απευθύνεται σε ένα αμερικανικό κοινό, γράφοντας με αγγλικό αλφάβητο. Αντιμετωπίζει γράμματα χωρίς έμφαση, όπως A-Z και a-z, συν ένα μικρό αριθμό σημείων στίξης και χαρακτήρες ελέγχου.





Συγκεκριμένα, δεν υπάρχει τρόπος αναπαράστασης δανειακών λέξεων που έχουν υιοθετηθεί από άλλες γλώσσες, όπως π.χ. καφές στο ASCII, χωρίς να τους αγγελοποιήσετε αντικαθιστώντας τονισμένους χαρακτήρες (π. καφενείο ). Οι τοπικές επεκτάσεις ASCII αναπτύχθηκαν για να καλύψουν τις ανάγκες διαφόρων γλωσσών, αλλά αυτές οι προσπάθειες έκαναν τη διαλειτουργικότητα αμήχανη και επεκτείναν σαφώς τις δυνατότητες του ASCII.





Αντίθετα, το Universal Coded Character Set (Unicode) βρίσκεται στο αντίθετο άκρο της κλίμακας φιλοδοξίας. Το Unicode προσπαθεί να καλύψει όσο το δυνατόν περισσότερα από τα συστήματα γραφής του κόσμου, στο βαθμό που καλύπτει αρχαίες γλώσσες και το αγαπημένο σύνολο εκφραστικών συμβόλων όλων, τα emoji.

Σύνολο χαρακτήρων ή κωδικοποίηση χαρακτήρων;

Με απλά λόγια, ένα σύνολο χαρακτήρων είναι μια επιλογή χαρακτήρων (π.χ., Α-Ζ), ενώ η κωδικοποίηση χαρακτήρων είναι μια αντιστοίχιση μεταξύ ενός συνόλου χαρακτήρων και μιας τιμής που μπορεί να αναπαρασταθεί ψηφιακά (π.χ., Α = 1, Β = 2).



Το πρότυπο ASCII είναι ουσιαστικά και τα δύο: ορίζει το σύνολο των χαρακτήρων που αντιπροσωπεύει και μια μέθοδο αντιστοίχισης κάθε χαρακτήρα σε μια αριθμητική τιμή.

Αντίθετα, η λέξη Unicode χρησιμοποιείται σε πολλά διαφορετικά πλαίσια για να σημαίνει διαφορετικά πράγματα. Μπορείτε να το σκεφτείτε ως έναν συνολικό όρο, όπως το ASCII, για να αναφέρεται σε ένα σύνολο χαρακτήρων και σε μια σειρά κωδικοποιήσεων. Αλλά, επειδή υπάρχουν αρκετές κωδικοποιήσεις, ο όρος Unicode χρησιμοποιείται συχνά για να αναφέρεται στο συνολικό σύνολο χαρακτήρων, και όχι στον τρόπο χαρτογράφησής τους.





Μέγεθος

Λόγω του εύρους του, το Unicode αντιπροσωπεύει πολύ περισσότερους χαρακτήρες από το ASCII. Το τυπικό ASCII χρησιμοποιεί εύρος 7 bit για την κωδικοποίηση 128 διακριτών χαρακτήρες Το Το Unicode, από την άλλη πλευρά, είναι τόσο μεγάλο που χρειάζεται να χρησιμοποιήσουμε διαφορετική ορολογία για να μιλήσουμε γι 'αυτό!

Το Unicode εξυπηρετεί 1.111.998 διευθύνσιμα σημεία κώδικα. Ένα σημείο κώδικα είναι περίπου ανάλογο με έναν χώρο που προορίζεται για έναν χαρακτήρα, αλλά η κατάσταση είναι πολύ πιο περίπλοκη από αυτήν όταν αρχίζεις να εμβαθύνεις στις λεπτομέρειες!





Μια πιο χρήσιμη σύγκριση είναι πόσα σενάρια (ή συστήματα γραφής) υποστηρίζονται αυτήν τη στιγμή. Φυσικά, το ASCII χειρίζεται μόνο το αγγλικό αλφάβητο, ουσιαστικά τη λατινική ή τη ρωμαϊκή γραφή. Η έκδοση του Unicode που δημιουργήθηκε το 2020 πηγαίνει πολύ παραπέρα: περιλαμβάνει υποστήριξη για συνολικά 154 σενάρια.

Αποθήκευση

Το εύρος των 7-bit του ASCII σημαίνει ότι κάθε χαρακτήρας αποθηκεύεται σε ένα μόνο byte 8-bit. το ανταλλακτικό δεν χρησιμοποιείται στο πρότυπο ASCII. Αυτό καθιστά τους υπολογισμούς μεγέθους ασήμαντους: το μήκος του κειμένου, σε χαρακτήρες, είναι το μέγεθος του αρχείου σε byte.

Μπορείτε να το επιβεβαιώσετε με την ακόλουθη ακολουθία εντολών bash. Αρχικά, δημιουργούμε ένα αρχείο που περιέχει 12 γράμματα κειμένου:

windows 10 διαχείριση μνήμης μπλε οθόνης
$ echo -n 'Hello, world' > foo

Για να ελέγξουμε ότι το κείμενο βρίσκεται στην κωδικοποίηση ASCII, μπορούμε να χρησιμοποιήσουμε το αρχείο εντολή:

$ file foo
foo: ASCII text, with no line terminators

Τέλος, για να λάβουμε τον ακριβή αριθμό byte που καταλαμβάνει το αρχείο, χρησιμοποιούμε το κατάσταση εντολή:

$ stat -f%z foo
12

Δεδομένου ότι το πρότυπο Unicode ασχολείται με πολύ μεγαλύτερο εύρος χαρακτήρων, ένα αρχείο Unicode καταλαμβάνει φυσικά περισσότερο χώρο αποθήκευσης. Πόσο ακριβώς εξαρτάται από την κωδικοποίηση.

Η επανάληψη του ίδιου συνόλου εντολών από πριν, χρησιμοποιώντας έναν χαρακτήρα που δεν μπορεί να αναπαρασταθεί στο ASCII, δίνει τα εξής:

$ echo -n '€' > foo
$ file foo
foo: UTF-8 Unicode text, with no line terminators
$ stat -f%z foo
3

Αυτός ο μοναδικός χαρακτήρας καταλαμβάνει 3 byte σε ένα αρχείο Unicode. Σημειώστε ότι το bash δημιούργησε αυτόματα ένα αρχείο UTF-8, καθώς ένα αρχείο ASCII δεν μπορεί να αποθηκεύσει τον επιλεγμένο χαρακτήρα (€). Το UTF-8 είναι μακράν η πιο κοινή κωδικοποίηση χαρακτήρων για το Unicode. Οι UTF-16 και UTF-32 είναι δύο εναλλακτικές κωδικοποιήσεις, αλλά χρησιμοποιούνται πολύ λιγότερο.

Το UTF-8 είναι μια κωδικοποίηση μεταβλητού πλάτους, πράγμα που σημαίνει ότι χρησιμοποιεί διαφορετικά ποσά αποθήκευσης για διαφορετικά σημεία κώδικα. Κάθε σημείο κώδικα θα καταλαμβάνει μεταξύ ενός και τεσσάρων byte, με την πρόθεση ότι οι πιο συνηθισμένοι χαρακτήρες απαιτούν λιγότερο χώρο, παρέχοντας έναν τύπο ενσωματωμένης συμπίεσης. Το μειονέκτημα είναι ότι ο προσδιορισμός των απαιτήσεων μήκους ή μεγέθους ενός δεδομένου κομματιού κειμένου γίνεται πολύ πιο περίπλοκος.

Το ASCII είναι Unicode, αλλά το Unicode δεν είναι ASCII

Για συμβατότητα προς τα πίσω, τα πρώτα 128 σημεία κώδικα Unicode αντιπροσωπεύουν τους ισοδύναμους χαρακτήρες ASCII. Δεδομένου ότι το UTF-8 κωδικοποιεί καθέναν από αυτούς τους χαρακτήρες με ένα μόνο byte, οποιοδήποτε κείμενο ASCII είναι επίσης κείμενο UTF-8. Το Unicode είναι ένα υπερσύνολο του ASCII.

Ωστόσο, όπως φαίνεται παραπάνω, πολλά αρχεία Unicode δεν μπορούν να χρησιμοποιηθούν σε περιβάλλον ASCII. Κάθε χαρακτήρας που είναι εκτός ορίων θα εμφανίζεται με απροσδόκητο τρόπο, συχνά με υποκατεστημένους χαρακτήρες που είναι εντελώς διαφορετικοί από αυτούς που προορίζονταν.

Σύγχρονη Χρήση

Για τους περισσότερους σκοπούς, το ASCII θεωρείται σε μεγάλο βαθμό ένα κληρονομικό πρότυπο. Ακόμη και σε περιπτώσεις που υποστηρίζουν μόνο τη λατινική γραφή-όπου η πλήρης υποστήριξη για τις πολυπλοκότητες του Unicode δεν είναι απαραίτητη, για παράδειγμα-είναι συνήθως πιο βολικό να χρησιμοποιείτε το UTF-8 και να εκμεταλλεύεστε τη συμβατότητά του με ASCII.

κωδικός 10 αυτή η συσκευή δεν μπορεί να ξεκινήσει

Συγκεκριμένα, οι ιστοσελίδες πρέπει να αποθηκεύονται και να μεταδίδονται χρησιμοποιώντας το UTF-8, το οποίο είναι το προεπιλεγμένο για το HTML5. Αυτό έρχεται σε αντίθεση με τον προηγούμενο ιστό, ο οποίος χρησιμοποιούσε το ASCII από προεπιλογή πριν αντικατασταθεί από το λατινικό 1.

Ένα πρότυπο που αλλάζει

Η τελευταία αναθεώρηση του ASCII πραγματοποιήθηκε το 1986.

Αντίθετα, το Unicode συνεχίζει να ενημερώνεται ετησίως. Νέα σενάρια, χαρακτήρες και, ιδιαίτερα, νέα emoji προστίθενται τακτικά. Μόνο ένα μικρό κλάσμα από αυτά έχουν διατεθεί, το σύνολο των χαρακτήρων είναι πιθανό να αυξηθεί και να αναπτυχθεί για το άμεσο μέλλον.

Σχετίζεται με: Τα 100 πιο δημοφιλή Emojis εξηγούνται

ASCII έναντι Unicode

Το ASCII εξυπηρετούσε τον σκοπό του για πολλές δεκαετίες, αλλά το Unicode το έχει αντικαταστήσει ουσιαστικά για όλους τους πρακτικούς σκοπούς εκτός από τα παλαιά συστήματα. Το Unicode είναι μεγαλύτερο και, ως εκ τούτου, πιο εκφραστικό. Αντιπροσωπεύει μια παγκόσμια, συνεργατική προσπάθεια και προσφέρει πολύ μεγαλύτερη ευελιξία, αν και σε βάρος κάποιας πολυπλοκότητας.

Μερίδιο Μερίδιο Τιτίβισμα ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ Τι είναι το κείμενο ASCII και πώς χρησιμοποιείται;

Το κείμενο ASCII φαίνεται κρυπτικό, αλλά έχει πολλές χρήσεις στο διαδίκτυο.

Διαβάστε Επόμενο
Σχετικά θέματα
  • Η τεχνολογία εξηγείται
  • Emojis
  • Ακατάληπτη γλώσσα
  • Πολιτισμός Ιστού
  • Unicode
Σχετικά με τον Συγγραφέα Μπόμπι Τζακ(Δημοσιεύθηκαν 58 άρθρα)

Ο Bobby είναι λάτρης της τεχνολογίας που εργάστηκε ως προγραμματιστής λογισμικού για περισσότερες από δύο δεκαετίες. Είναι παθιασμένος με το gaming, εργάζεται ως Reviews Editor στο Switch Player Magazine και είναι βυθισμένος σε όλες τις πτυχές της διαδικτυακής δημοσίευσης και ανάπτυξης ιστού.

Περισσότερα από τον Bobby Jack

Εγγραφείτε στο newsletter μας

Εγγραφείτε στο ενημερωτικό μας δελτίο για τεχνικές συμβουλές, κριτικές, δωρεάν ebooks και αποκλειστικές προσφορές!

Κάντε κλικ εδώ για εγγραφή