Table des caractères Unicode/U0000

Données clés
U+0000-0FFF	U+8000-8FFF
U+1000-1FFF	U+9000-9FFF
U+2000-2FFF	U+A000-AFFF
U+3000-3FFF	U+B000-BFFF
U+4000-4FFF	U+C000-CFFF
U+5000-5FFF	U+D000-DFFF
U+6000-6FFF	U+E000-EFFF
U+7000-7FFF	U+F000-FFFF
U+0000-0FFF	plan 0 (PMB/BMP)
U+10000-10FFF	plan 1 (PMC/SMP)
U+20000-20FFF	plan 2 (PSC/SIP)
U+30000-30FFF	plan 3 (PST/TIP)
U+40000-DFFFF	plans 4 à 13 (réservés)
U+E0000-E0FFF	plan 14 (PCS/SSP)
U+F0000-F0FFF	plan 15 (privé A)
U+100000-100FFF	plan 16 (privé B)

Table des caractères Unicode U+0000 à U+007F (0 à 127 en décimal).

Commandes C0 et latin de base (Unicode 1.0.0)

Utilisés pour l’alphabet latin et certains symboles et signes de ponctuation. Ce sous-ensemble contient tous les caractères invariants des jeux de caractères ISO/CEI 646, les positions variantes correspondant à la version américaine (US-ASCII), compatible avec le jeu de caractère ISO/CEI 8859-1.

Les caractères U+0000 à U+001F et U+007F sont des caractères de contrôle C0 (ou de commandes, formalisés dans la norme ISO 6429) et seuls quelques-uns (U+0009, U+000A, U+000D) sont normalisés pour le codage de textes et ont un comportement bien défini par Unicode (les autres sont ignorables dans les recherches de texte et leur usage n’est pas recommandé, car ils dépendent de protocoles spécifiques). Le caractère U+0020 (espace) est parfois aussi considéré comme un caractère de commande de format.

Table des caractères

v · d · m en fr	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
U+0000	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
U+0010	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
U+0020	SP	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
U+0030	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
U+0040	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
U+0050	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
U+0060	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
U+0070	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~	DEL

Historique

Version initiale Unicode 1.0.0

C'est la version actuelle, qui n’a pas été modifiée depuis l’unification d’Unicode, dans sa première version stable 1.1, avec la norme révisée ISO/CEI 10646-1 qui avait fait les mêmes choix antérieurs. Elle est basée sur la variante américaine (US-ASCII) de la norme ISO/CEI 646, dont elle étend l'ancien codage sur 7 bits seulement avec une égalité des valeurs numériques des points de code Unicode/ISO/CEI 10646 et des valeurs des codets de l’ancienne norme.

Voir aussi

Liens externes

(en) [PDF] C0 Controls and Basic Latin, tableau sur le site Unicode.
(fr) [PDF] Commandes C0 et latin de base, tableau sur le site Unicode.

Articles connexes

Blocs de caractères Unicode contenant des signes de ponctuation[ modifier ]

Blocs de caractères Unicode contenant des symboles monétaires[ modifier ]

Blocs de caractères Unicode contenant des signes ou symboles mathématiques[ modifier ]

Blocs de caractères Unicode contenant des chiffres ou nombres[ modifier ]

Blocs de caractères Unicode pour l’écriture latine[ modifier ]

Caractères ajoutés dans Unicode 1.0.0 (partiellement obsolète)^[1][ modifier ]

Nouveaux blocs ajoutés (normalisés plus tard après l’unification de la norme ISO/CEI 10646-1 avec le standard Unicode 2.0) :

Commandes C0 et latin de base
Commandes C1 et latin étendu – 1
Latin étendu – A
Latin étendu – B
Latin étendu – alphabet phonétique international
Lettres modificatives avec chasse
Diacritiques
Grec et copte (codage Unicode 1.0.0 partiellement obsolète, car 13 caractères ont ensuite été supprimés ou redéfinis dans Unicode 1.1, même si 4 caractères ont été réintroduits et normalisés à l’identique dans Unicode 3.0)
Cyrillique (codage Unicode 1.0.0 partiellement obsolète, car 4 caractères ont ensuite été supprimés dans Unicode 1.1), même si ces caractères ont été réintroduits et normalisés à l’identique dans Unicode 3.2)
Arménien
Hébreu
Arabe
Dévanâgarî
Bengalî
Gourmoukhî
Goudjarati (ou gujarâtî)
Oriyâ (ou odia)
Tamoul
Télougou
Kannara (ou kannada)
Malayâlam
Thaï (codage Unicode 1.0.0 partiellement obsolète, car des caractères ont ensuite été standardisés différemment dans Unicode 1.1)
Lao (ou laotien) (codage Unicode 1.0.0 partiellement obsolète, car des caractères ont ensuite été standardisés différemment dans Unicode 1.1)
Tibétain (codage Unicode 1.0.0 obsolète, car tous ces caractères initialement définis de U-1000 à U-104F ont ensuite été supprimés dans Unicode 1.1 (remplacé en Unicode 3.0 par le bloc « Birman » ; les caractères tibétains ont ensuite été normalisés différemment dans un nouveau bloc ajouté dans Unicode 2.0)
Géorgien – assomtavrouli et mkhédrouli
Ponctuation générale
Exposants et indices
Symboles monétaires
Signes combinatoires pour des symboles
Symboles de type lettre
Formes numérales
Flèches
Opérateurs mathématiques
Signes techniques divers (codage Unicode 1.0.0 partiellement obsolète, car 2 caractères ont ensuite été supprimés dans Unicode 1.0.1)
Pictogrammes de commande
Reconnaissance optique de caractères (OCR)
Symboles alphanumériques délimités
Filets
Pavés
Formes géométriques
Symboles divers
Casseau
Symboles et ponctuations unifiés CJC
Hiragana
Katakana
Bopomofo
Hangûl (ou hangeul) – jamos de compatibilité
Kanboun
Lettres et mois unifiés CJC délimités
Compatibilité CJC
Hangûl (ou hangeul) – syllabes coréennes (codage Unicode 1.0.0 partiellement obsolète, car tous ces caractères ont été initialement publiés sans noms standardisé qui ont ensuite été définis dans Unicode 1.1)
Zone à usage privée  (codage Unicode 1.0.0 partiellement obsolète, car le bloc initialement défini de U+E800 à U-FDFF a ensuite été réajusté de U+E000 à U-F7FF dans un erratum publié en annexe dans Unicode 1.0.1)
Formes de compatibilité unifiés CJC
Petites variantes de forme
Formes de présentation arabes – B
Formes de demi-chasse et de pleine chasse
Caractères spéciaux (codage Unicode 1.0.0 partiellement obsolète, car 1 caractère a été initialement codé dans Unicode 1.0.0 avec un nom standardisé qui a ensuite été modifié dans Unicode 1.0.1)

Notes et références

↑ Reconstructed UnicodeData.txt (1.0.0), base de données sur le site Unicode.

[unicode-data-1-0-0-1] Reconstructed UnicodeData.txt (1.0.0), base de données sur le site Unicode.

[1]