MySQL (4) - 码厩

#6 MySQL 编码字符集

DB MySQL 字符编码 2015-05-11

各种类型的编码

mysql> SHOW VARIABLES LIKE 'character%';
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | gbk                        |
| character_set_connection | gbk                        |
| character_set_database   | utf8mb4                    |
| character_set_filesystem | binary                     |
| character_set_results    | gbk                        |
| character_set_server     | utf8mb4                    |
| character_set_system     | utf8mb3                    |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)

5.7 及更早版本默认字符集和 Collation 是 latin1 和 latin1_swedish_ci
8.0 之后改成 utf8mb4 和 utf8mb4_0900_ai_ci

上面就有 6 种全局的编码：

client 客户端编码
connection 连接编码
database 数据库编码，创建表时的默认编码
load data, 以及创建
filesystem 文件系统编码
results 结果编码
server 服务端编码，创建数据库时的默认编码
system 系统编码

还有两种局部的编码：表的编码和列（字段）的编码。
列主要是 char, varchar, text 类型。

字符集

# 都可以 LIKE 搜索
SHOW CHARACTER SET;
SHOW CHARSET;
SHOW CHAR SET;

Charset	Description	Default collation	Maxlen
armscii8	ARMSCII-8 Armenian	armscii8_general_ci	1
ascii	US ASCII	ascii_general_ci	1
big5	Big5 Traditional Chinese	big5_chinese_ci	2
binary	Binary pseudo charset	binary	1
cp1250	Windows Central European	cp1250_general_ci	1
cp1251	Windows Cyrillic	cp1251_general_ci	1
cp1256	Windows Arabic	cp1256_general_ci	1
cp1257	Windows Baltic	cp1257_general_ci	1
cp850	DOS West European	cp850_general_ci	1
cp852	DOS Central European	cp852_general_ci	1
cp866	DOS Russian	cp866_general_ci	1
cp932	SJIS for Windows Japanese	cp932_japanese_ci	2
dec8	DEC West European	dec8_swedish_ci	1
eucjpms	UJIS for Windows Japanese	eucjpms_japanese_ci	3
euckr	EUC-KR Korean	euckr_korean_ci	2
gb18030	China National Standard GB18030	gb18030_chinese_ci	4
gb2312	GB2312 Simplified Chinese	gb2312_chinese_ci	2
gbk	GBK Simplified Chinese	gbk_chinese_ci	2
geostd8	GEOSTD8 Georgian	geostd8_general_ci	1
greek	ISO 8859-7 Greek	greek_general_ci	1
hebrew	ISO 8859-8 Hebrew	hebrew_general_ci	1
hp8	HP West European	hp8_english_ci	1
keybcs2	DOS Kamenicky Czech-Slovak	keybcs2_general_ci	1
koi8r	KOI8-R Relcom Russian	koi8r_general_ci	1
koi8u	KOI8-U Ukrainian	koi8u_general_ci	1
latin1	cp1252 West European	latin1_swedish_ci	1
latin2	ISO 8859-2 Central European	latin2_general_ci	1
latin5	ISO 8859-9 Turkish	latin5_turkish_ci	1
latin7	ISO 8859-13 Baltic	latin7_general_ci	1
macce	Mac Central European	macce_general_ci	1
macroman	Mac West European	macroman_general_ci	1
sjis	Shift-JIS Japanese	sjis_japanese_ci	2
swe7	7bit Swedish	swe7_swedish_ci	1
tis620	TIS620 Thai	tis620_thai_ci	1
ucs2	UCS-2 Unicode	ucs2_general_ci	2
ujis	EUC-JP Japanese	ujis_japanese_ci	3
utf16	UTF-16 Unicode	utf16_general_ci	4
utf16le	UTF-16LE Unicode	utf16le_general_ci	4
utf32	UTF-32 Unicode	utf32_general_ci	4
utf8mb3	UTF-8 Unicode	utf8mb3_general_ci	3
utf8mb4	UTF-8 Unicode	utf8mb4_0900_ai_ci	4

SELECT * FROM information_schema.character_sets;
SELECT * FROM information_schema.character_sets WHERE CHARACTER_SET_NAME LIKE "%utf%";

CHARACTER_SET_NAME	DEFAULT_COLLATE_NAME	DESCRIPTION	MAXLEN
utf8mb3	utf8mb3_general_ci	UTF-8 Unicode	3
utf16	utf16_general_ci	UTF-16 Unicode	4
utf16le	utf16le_general_ci	UTF-16LE Unicode	4
utf32	utf32_general_ci	UTF-32 Unicode	4
utf8mb4	utf8mb4_0900_ai_ci	UTF-8 Unicode	4

排序规则

SHOW COLLATION;

这就多了，两百多。

SHOW COLLATION LIKE "%ascii%";

Collation	Charset	Id	Default	Compiled	Sortlen	Pad_attribute
ascii_bin	ascii	65		Yes	1	PAD SPACE
ascii_general_ci	ascii	11	Yes	Yes	1	PAD SPACE

SELECT * FROM information_schema.collations WHERE CHARACTER_SET_NAME = "utf8mb4" AND COLLATION_NAME LIKE "%zh%";

COLLATION_NAME	CHARACTER_SET_NAME	ID	IS_DEFAULT	IS_COMPILED	SORTLEN	PAD_ATTRIBUTE
utf8mb4_zh_0900_as_cs	utf8mb4	308		Yes	0	NO PAD

命名规则

字符集名称，语言，通用后缀

ai Accent-insensitive 重音不敏感
as Accent-sensitive 重音敏感
ci Case-insensitive 大小写不敏感
cs Case-sensitive 大小写敏感
ks Kana-sensitive 假名敏感（日语）
bin 二进制

8.0 之后，很多编码中多了 0900 字样，表示 Unicode 9.0 规范。

参考资料与拓展阅读

博客园，2021/07/10，mysql 设置了 utf8mb4，为什么还有 utf8mb4_general_ci 和 utf8mb4_0900_ai_ci？
CSDN 博客，2023-07-07，数据库之 MySQL 字符集与数据库操作

#5 SQL Join

DB SQL MySQL 2015-03-22

#4 MySQL set 类型

DB MySQL 2014-08-20

顾名思义，就是集合类型。

set('a', 'b', ...)

每个字段可以是指定选项中的若干个（包含 0 个）。

#3 MySQL 时间

DB MySQL 2014-03-06

几种形式

字符串，比如：
varchar(14)，存：yyyymmddHHMMSS 格式
varchar(19)，存：yyyy-mm-dd HH:MM:SS 格式
varchar(23)，存：yyyy-mm-dd HH:MM:SS.fff 格式
varchar(26)，存：yyyy-mm-dd HH:MM:SS.ffffff 格式
varchar(24)，存：yyyy-mm-ddTHH:MM:SS+0800 或 yyyy-mm-dd HH:MM:SS 0800 格式
整形数

int 1970 - 2038

time.strftime('%Y-%m-%d %H:%M:%S', time.gmtime((1 << 31) - 1))
# 2038-01-19 03:14:07

- int unsigned 1970 - 2106

time.strftime('%Y-%m-%d %H:%M:%S', time.gmtime((1 << 32) - 1))
# 2106-02-07 06:28:15

- bigint 可以用到世界毁灭

注意：也可以任意指定一个时间为起点，比如 2020-01-01 00:00:00
TIMESTAMP 类型
相当于上面的 int 类型，2038 问题
DATETIME 类型

PS: DATE, TIME, YEAR 三种类型：

DATE
TIME
YEAR

比较

1. 存储效率

2. 时间比较

3. 是否方便索引

#2 MySQL Timestamp

DB MySQL 2014-03-03

优点

Timestamp 是按 UTC 时间进行存储。

2038 问题

MySQL 的 timestamp 类型挺好的，不过有个严重的 2038 问题，我不知道到时候这个类型会如何处理。

The TIMESTAMP data type is used for values that contain both date and time parts. TIMESTAMP has a range of '1970-01-01 00:00:01' UTC to '2038-01-19 03:14:07' UTC.

(1 << 31) / (3600 * 24 * 365)

根据时间范围，这应该是用的一个有符号的 32 位整型数实现的，为什么不用无符号数呢，不是又可以往后续 68 年么？

我预测，MySQL 的某一个新版本，将会增加一个 TIMESTAMP64 类型，采用 64 位有符号整形数存时间戳。
或直接将 TIMESTAMP 拓展到 64 位，先支持配置和命令行参数开启这个特性，然后后续版本将其视作默认设置。

参考资料与拓展阅读

MySQL 文档 (v5.7), 11.2.2 The DATE, DATETIME, and TIMESTAMP Types

#1 MySQL 插入的长字符串被截断问题

DB MySQL 2013-09-17

MySQL 出现了一个问题，插入一个长字符串（二十几KB）结果导致被截断。

一	二	三	四	五	六	日