#9 BOM 头的研究
字符编码 2020-11-03BOM 是 Byte Order Mark 的缩写,代表一个 Unicode 字符 FEFF
。
Windows 系统下的很多软件就用 BOM 字符作为 Magic Number, 用来确认文件的字符编码和字节顺序。
#8 字符编码
字符编码 2020-11-01从原理上来讲,我们的计算机其实只认识数字(要不然为什么叫做计算机),确切的说是 0 和 1,我们的文字信息存放在计算机中也是以数字形式存在。
所谓字符编码就是字符和数字之间的对应关系和转换规则。
#7 “锟斤拷” 到底是个啥?
字符编码 乱码问题 2020-11-01手持两把锟斤拷,
口中疾呼烫烫烫。
脚踏千朵屯屯屯,
笑看万物锘锘锘。
开发者经常这样调侃编码问题:手持两把锟斤拷,口中疾呼烫烫烫。
程序员都知道字符编码,比如 ASCII,GBK,UTF-8,那肯定能理解这些神奇的 “乱码” 出现的原因,肯定是某些地方没有正确处理编码。
那为什么总是能看见 锟斤拷
,烫烫烫
呢?其背后隐藏更深的原因是啥?
#6 JavaScript Unicode 问题
JavaScript Web前端 字符编码 乱码问题 Unicode 2019-06-20#5 ASCII 码表
ASCII 字符编码 2017-04-15Bin | Oct | Dec | Hex | 缩写/字符 | 解释 |
---|---|---|---|---|---|
0000 0000 |
0 | 0 | 00 | NUL(null) | 空字符 |
0000 0001 |
1 | 1 | 01 | SOH(start of headline) | 标题开始 |
0000 0010 |
2 | 2 | 02 | STX (start of text) | 正文开始 |
0000 0011 |
3 | 3 | 03 | ETX (end of text) | 正文结束 |
0000 0100 |
4 | 4 | 04 | EOT (end of transmission) | 传输结束 |
0000 0101 |
5 | 5 | 05 | ENQ (enquiry) | 请求 |
0000 0110 |
6 | 6 | 06 | ACK (acknowledge) | 收到通知 |
0000 0111 |
7 | 7 | 07 | BEL (bell) | 响铃 |
0000 1000 |
10 | 8 | 08 | BS (backspace) | 退格 |
0000 1001 |
11 | 9 | 09 | HT (horizontal tab) | 水平制表符 |
0000 1010 |
12 | 10 | 0A | LF (NL line feed, new line) | 换行键 |
0000 1011 |
13 | 11 | 0B | VT (vertical tab) | 垂直制表符 |
0000 1100 |
14 | 12 | 0C | FF (NP form feed, new page) | 换页键 |
0000 1101 |
15 | 13 | 0D | CR (carriage return) | 回车键 |
0000 1110 |
16 | 14 | 0E | SO (shift out) | 不用切换 |
0000 1111 |
17 | 15 | 0F | SI (shift in) | 启用切换 |
0001 0000 |
20 | 16 | 10 | DLE (data link escape) | 数据链路转义 |
0001 0001 |
21 | 17 | 11 | DC1 (device control 1) | 设备控制1 |
0001 0010 |
22 | 18 | 12 | DC2 (device control 2) | 设备控制2 |
0001 0011 |
23 | 19 | 13 | DC3 (device control 3) | 设备控制3 |
0001 0100 |
24 | 20 | 14 | DC4 (device control 4) | 设备控制4 |
0001 0101 |
25 | 21 | 15 | NAK (negative acknowledge) | 拒绝接收 |
0001 0110 |
26 | 22 | 16 | SYN (synchronous idle) | 同步空闲 |
0001 0111 |
27 | 23 | 17 | ETB (end of trans. block) | 结束传输块 |
0001 1000 |
30 | 24 | 18 | CAN (cancel) | 取消 |
0001 1001 |
31 | 25 | 19 | EM (end of medium) | 媒介结束 |
0001 1010 |
32 | 26 | 1A | SUB (substitute) | 代替 |
0001 1011 |
33 | 27 | 1B | ESC (escape) | 换码(溢出) |
0001 1100 |
34 | 28 | 1C | FS (file separator) | 文件分隔符 |
0001 1101 |
35 | 29 | 1D | GS (group separator) | 分组符 |
0001 1110 |
36 | 30 | 1E | RS (record separator) | 记录分隔符 |
0001 1111 |
37 | 31 | 1F | US (unit separator) | 单元分隔符 |
0010 0000 |
40 | 32 | 20 | (space) | 空格 |
0010 0001 |
41 | 33 | 21 | ! | 叹号 |
0010 0010 |
42 | 34 | 22 | " | 双引号 |
0010 0011 |
43 | 35 | 23 | # | 井号 |
0010 0100 |
44 | 36 | 24 | $ | 美元符 |
0010 0101 |
45 | 37 | 25 | % | 百分号 |
0010 0110 |
46 | 38 | 26 | & | 和号 |
0010 0111 |
47 | 39 | 27 | ' | 闭单引号 |
0010 1000 |
50 | 40 | 28 | ( | 开括号 |
0010 1001 |
51 | 41 | 29 | ) | 闭括号 |
0010 1010 |
52 | 42 | 2A | * | 星号 |
0010 1011 |
53 | 43 | 2B | + | 加号 |
0010 1100 |
54 | 44 | 2C | , | 逗号 |
0010 1101 |
55 | 45 | 2D | - | 减号/破折号 |
0010 1110 |
56 | 46 | 2E | . | 句号 |
0010 1111 |
57 | 47 | 2F | / | 斜杠 |
0011 0000 |
60 | 48 | 30 | 0 | 数字0 |
0011 0001 |
61 | 49 | 31 | 1 | 数字1 |
0011 0010 |
62 | 50 | 32 | 2 | 数字2 |
0011 0011 |
63 | 51 | 33 | 3 | 数字3 |
0011 0100 |
64 | 52 | 34 | 4 | 数字4 |
0011 0101 |
65 | 53 | 35 | 5 | 数字5 |
0011 0110 |
66 | 54 | 36 | 6 | 数字6 |
0011 0111 |
67 | 55 | 37 | 7 | 数字7 |
0011 1000 |
70 | 56 | 38 | 8 | 数字8 |
0011 1001 |
71 | 57 | 39 | 9 | 数字9 |
0011 1010 |
72 | 58 | 3A | : | 冒号 |
0011 1011 |
73 | 59 | 3B | ; | 分号 |
0011 1100 |
74 | 60 | 3C | < | 小于 |
0011 1101 |
75 | 61 | 3D | = | 等号 |
0011 1110 |
76 | 62 | 3E | > | 大于 |
0011 1111 |
77 | 63 | 3F | ? | 问号 |
0100 0000 |
100 | 64 | 40 | @ | 电子邮件符号 |
0100 0001 |
101 | 65 | 41 | A | 大写字母A |
0100 0010 |
102 | 66 | 42 | B | 大写字母B |
0100 0011 |
103 | 67 | 43 | C | 大写字母C |
0100 0100 |
104 | 68 | 44 | D | 大写字母D |
0100 0101 |
105 | 69 | 45 | E | 大写字母E |
0100 0110 |
106 | 70 | 46 | F | 大写字母F |
0100 0111 |
107 | 71 | 47 | G | 大写字母G |
0100 1000 |
110 | 72 | 48 | H | 大写字母H |
0100 1001 |
111 | 73 | 49 | I | 大写字母I |
0100 1010 |
112 | 74 | 4A | J | 大写字母J |
0100 1011 |
113 | 75 | 4B | K | 大写字母K |
0100 1100 |
114 | 76 | 4C | L | 大写字母L |
0100 1101 |
115 | 77 | 4D | M | 大写字母M |
0100 1110 |
116 | 78 | 4E | N | 大写字母N |
0100 1111 |
117 | 79 | 4F | O | 大写字母O |
0101 0000 |
120 | 80 | 50 | P | 大写字母P |
0101 0001 |
121 | 81 | 51 | Q | 大写字母Q |
0101 0010 |
122 | 82 | 52 | R | 大写字母R |
0101 0011 |
123 | 83 | 53 | S | 大写字母S |
0101 0100 |
124 | 84 | 54 | T | 大写字母T |
0101 0101 |
125 | 85 | 55 | U | 大写字母U |
0101 0110 |
126 | 86 | 56 | V | 大写字母V |
0101 0111 |
127 | 87 | 57 | W | 大写字母W |
0101 1000 |
130 | 88 | 58 | X | 大写字母X |
0101 1001 |
131 | 89 | 59 | Y | 大写字母Y |
0101 1010 |
132 | 90 | 5A | Z | 大写字母Z |
0101 1011 |
133 | 91 | 5B | [ | 开方括号 |
0101 1100 |
134 | 92 | 5C | \ | 反斜杠 |
0101 1101 |
135 | 93 | 5D | ] | 闭方括号 |
0101 1110 |
136 | 94 | 5E | ^ | 脱字符 |
0101 1111 |
137 | 95 | 5F | _ | 下划线 |
0110 0000 |
140 | 96 | 60 | ` | 开单引号 |
0110 0001 |
141 | 97 | 61 | a | 小写字母a |
0110 0010 |
142 | 98 | 62 | b | 小写字母b |
0110 0011 |
143 | 99 | 63 | c | 小写字母c |
0110 0100 |
144 | 100 | 64 | d | 小写字母d |
0110 0101 |
145 | 101 | 65 | e | 小写字母e |
0110 0110 |
146 | 102 | 66 | f | 小写字母f |
0110 0111 |
147 | 103 | 67 | g | 小写字母g |
0110 1000 |
150 | 104 | 68 | h | 小写字母h |
0110 1001 |
151 | 105 | 69 | i | 小写字母i |
0110 1010 |
152 | 106 | 6A | j | 小写字母j |
0110 1011 |
153 | 107 | 6B | k | 小写字母k |
0110 1100 |
154 | 108 | 6C | l | 小写字母l |
0110 1101 |
155 | 109 | 6D | m | 小写字母m |
0110 1110 |
156 | 110 | 6E | n | 小写字母n |
0110 1111 |
157 | 111 | 6F | o | 小写字母o |
0111 0000 |
160 | 112 | 70 | p | 小写字母p |
0111 0001 |
161 | 113 | 71 | q | 小写字母q |
0111 0010 |
162 | 114 | 72 | r | 小写字母r |
0111 0011 |
163 | 115 | 73 | s | 小写字母s |
0111 0100 |
164 | 116 | 74 | t | 小写字母t |
0111 0101 |
165 | 117 | 75 | u | 小写字母u |
0111 0110 |
166 | 118 | 76 | v | 小写字母v |
0111 0111 |
167 | 119 | 77 | w | 小写字母w |
0111 1000 |
170 | 120 | 78 | x | 小写字母x |
0111 1001 |
171 | 121 | 79 | y | 小写字母y |
0111 1010 |
172 | 122 | 7A | z | 小写字母z |
0111 1011 |
173 | 123 | 7B | { | 开花括号 |
0111 1100 |
174 | 124 | 7C | | | 垂线 |
0111 1101 |
175 | 125 | 7D | } | 闭花括号 |
0111 1110 |
176 | 126 | 7E | ~ | 波浪号 |
0111 1111 |
177 | 127 | 7F | DEL (delete) | 删除 |
#4
Python 输出 Unicode 字符到标准输出时遇到 UnicodeEncodeError
Python Unicode 字符编码
2016-06-22
源代码:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
print u'中国'
报错:
Traceback (most recent call last):
File "test.py", line 4, in <module>
print u'中国'
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
#3 Python 设置系统默认编码
Python 字符编码 2016-01-23关于 sys.setdefaultencoding
的一些问题。