Il teorema di non calcolabilita della codifica

Il teorema di non calcolabilita della codifica

Per di piu Unicode definisce ed cio ad esempio chiama „Unicode transformation format” (UTF) anche „Universal character set” (UCS): questi non sono altre quale le codifiche necessarie a la panorama esterna di Unicode.

Delle diverse codifiche definite addirittura usate nella racconto di Unicode, mi limitero a rievocare le oltre a importanti (ad esempio sono di nuovo laquelle usate in con l’aggiunta di del 90% dei casi).

UTF-16 (ex UCS-2, descritta nel eccitante su che norme U): una norme multibyte che razza di permette la panorama dell’intero programma Unicode e che razza di rappresenta l’intero BMP (65536 codepoint) in una codificazione di campione „wide” costituita da due byte (questa eta l’originale regole UCS-2, ad esempio periodo durante piacere di esprimere il celibe BMP). Qualora UTF-16 di nuovo UCS-2 sono reiteratamente confuse, UTF-16 e l’unica di tecnica codesto. Durante UTF-16 purchessia spirito viene legalizzato con una successione di prolissita incognita da 2 per quattro ottetti (byte), riservando le codifiche per quattro byte a codepoint rarissimi gestiti tramite „codepoint surrogati”.

Per UTF-8 qualunque inclinazione viene ratificato con una raggruppamento di altezza indeciso da 1 verso quattro ottetti (byte)

UTF 16 definisce addirittura insecable particolare tariffa (Byte-Order-Mark o BOM) come sinon puo conoscere a intuire l’endianness usata nella trascrizione del testo. Il BOM e capito dal codepoint (esadecimale) U+FEFF ad esempio circa una ingranaggio big-endian viene concepito dalla successione 0xFE,0xFF ed dalla sfilza 0xFF,0xFE sopra una ingranaggio little endian. Poiche il codepoint https://worldbrides.org/it/dateniceasian-recensione/ U+FEFF (Zero-Width Giammai-Break Space : Estensione di capacita nulla quale non consente interruzioni) non puo giammai avere luogo il originario inclinazione di una successione codificata qualora il codepoint U+FFFE non e – nemmeno sara – mai localita ad indivisible temperamento mite, l’apparire di qualcuno di questi due codepoint all’ inizio di una sfilza codificata permette di evincere la endianness dell’intera sequela.

Con UTF-8 non esiste indivisible BOM (per motivi proprio spiegati) seppure non molti programmi (particolarmente operanti con puro windows) ne inseriscono uno (xEF,0xBB,0xBF) confronto per quello usato sopra UTF-16. Attuale e visto, tuttavia sconsiderato, dallo canone, anche sopra sostanza non fa che razza di guastare le scatole.

UTF-32/UCS-4: una regole „wide” a lunghezza fissa: qualsiasi codepoint di Unicode e capito da una raggruppamento di 4 byte. Sinon applicano le considerazioni sul BOM in precedenza viste a UTF-16. Questa codifica e usata, con uso, molto di rado.

Verso molla dei vantaggi illustrati della trascrizione F sulla codificazione U, UTF-8 e oggi la codificazione con l’aggiunta di usata verso la panorama esterna di testi di nuovo testi multilingua. UTF-16 e a contro molto usata nella vista interna delle stringhe (sopra particolari e quella in metodo mediante qualsivoglia i sistemi operativi Microsoft posteriori per Windows 2000)

Il concetto principale, rivisitato

Giunti in realta infine del nostro cautela (semplificato) dei codici di nuovo codifiche associate, siamo pronti verso cercare di conoscere quali inconvenienti possono suscitare il problematica capitale che ho periodo un qualunque riunione fa.

Colui che razza di succede e ad esempio excretion tomo (file) predisposto per abitare visualizzato durante una data tripletta (espressivita, codifica, endianness) avance verso svanire riguardo a di excretion maniera in cui taluno dei tre componenti viene applicato durante mezzo erronea.

Esiste un’altra alternativa, ovvero che razza di sul atteggiamento intenzione – quello sopra cui viene visualizzato il tomo – non esista il font opportuno per la visualizzazione (quale, mancano i alfabeto Giapponesi). Attuale peccato si elimina semplicemente installando indivis attrezzi di font completi (piu volte chiamati font Unicode).

Il concetto principale e deciso mentre sinon riescono per ricreare la tripletta di nascita, quella di meta, e a individuare la uso corretta di trasporto frammezzo a le due.

Purtroppo, quegli quale ho detto proprio e presuntuoso ed per annunciare quegli come io (addirittura io solo, verso laquelle che ne so) chiamo „il principio di non calcolabilita della transcodifica”:

Dodaj komentarz