Python Unicode 字符编码
2016-06-22
源代码:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
print u'中国'
报错:
Traceback (most recent call last):
File "test.py", line 4, in <module>
print u'中国'
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
Linux
2016-06-19
通过命令调用,随机生成密码。
我常用的方法:date | md5sum | base64 | head -c16; echo
开发工具 SSH XShell 网络代理
2016-06-18
主要讲的是如何通过 SSH 的代理机制实现网络的穿透访问。
开发工具
2016-06-12
作业部落,用来写 Markdown,挺好的,不过样式不太符合我的心意,好在提供自定义功能...
个人
2016-06-08
乐视超4 X50 Pro,2999 元。
个人
2016-06-08
阅读下面的漫画材料,根据要求写一篇不少于800字的文章。(60 分)

要求:结合材料的内容和寓意,选好角度,确定立意,明确文体,自拟标题;不要套作,不要抄袭。
DNS
2016-06-06
$ curl -v "http://成都大运会.网址"
* Input domain encoded as `UTF-8'
* About to connect() to xn--6oqv8vrnhtp3c7hb.xn--ses554g port 80 (#0)
* Trying 202.173.11.233... connected
* Connected to 成都大运会.网址 (202.173.11.233) port 80 (#0)
> GET / HTTP/1.1
> User-Agent: curl/7.19.7 (x86_64-redhat-linux-gnu) libcurl/7.19.7 NSS/3.27.1 zlib/1.2.3 libidn/1.18 libssh2/1.4.2
> Host: xn--6oqv8vrnhtp3c7hb.xn--ses554g
> Accept: */*
>
< HTTP/1.1 301 Moved Permanently
< Server: openresty/1.21.4.3
< Date: Sat, 16 Dec 2023 06:09:33 GMT
< Content-Type: text/html; charset=utf-8
< Content-Length: 61
< Connection: keep-alive
< Location: http://www.2021chengdu.com
<
<a href="http://www.2021chengdu.com">Moved Permanently</a>.
* Connection #0 to host 成都大运会.网址 left intact
* Closing connection #0
中文域名,中文顶级域名都已经支持很多年了,虽然看到不多。
上面示例中的域名 成都大运会.网址
实际上在域名系统中是以 xn--6oqv8vrnhtp3c7hb.xn--ses554g
形式存在的。
这种编码方式叫做 Punycode,非 ASCII 字符会被按照 Unicode 编号转换成 ASCII 字符。
国际化域名
域名系统中允许的字符集基于 ASCII,不允许以母语或字母表示多种语言的名称和单词。
ICANN 批准了国际化域名(IDNA)系统,该系统通过一种称为 Punycode 的编码将应用程序用户界面中使用的 Unicode 字符串映射到有效的 DNS 字符集。
Example of Greek IDN with domain name in non-Latin alphabet: ουτοπία.δπθ.gr (Punycode is xn--kxae4bafwg.xn--pxaix.gr)
Punycode
'I❤️U'.encode('punycode')
b'IU-ony8085h'
'baidu.com'.encode('idna').decode()
# baidu.com
'中国.com'.encode('idna').decode()
# 'xn--fiqs8s.com'
'编程.中国'.encode('idna').decode()
# 'xn--9nz56h.xn--fiqs8s'
先提取 ASCII 字符,再编码非 ASCII 字符。
DB MongoDB
2016-06-01
默认是一个 ObjectId 对象,也可以手动设置。
举个栗子
使用 PyMongo:
# -*- coding: utf-8 -*-
from pymongo import MongoClient
client = MongoClient() # 连接到默认主机的默认端口:localhost:27017
db = client.test_db
collection = db.test_collection
collection.insert({"Hu" : "Ang", "Love" : [5, 'Sun', 'Xiu']})
collection.insert({"And" : 20, "Daughter" : True})
collection.insert({"GIRL": ',', "IS": "A GIRL", '_id': 123})
如果是 MongoDB 数据库操作,就应该是这样:
$ mongo
> use test_db
> db.test_collection.insert({"Hu" : "Ang", "Love" : [5, 'Sun', 'Xiu']})
> db.test_collection.insert({"And" : 20, "Daughter" : True})
> db.test_collection.insert({"GIRL": ',', "IS": "A GIRL", '_id': 123})
最后查到的结果显示如下:
> db.test_collection.find()
{ "_id" : ObjectId("5746c0f900e0990cfc600938"), "Love" : [ 5, "Sun", "Xiu" ], "Hu" : "Ang" }
{ "_id" : ObjectId("5746c0f900e0990cfc600939"), "And" : 20, "Daughter" : true }
{ "_id" : 123, "GIRL" : ",", "IS" : "A GIRL" }
_id
如果自己往里面传 _id
的话,要注意唯一性约束,如果里面存在这个 _id
值,那么就会报错:E11000 duplicate key error index
为什么没有采用像其他数据库一样的主键自增机制?
可能是因为 MongoDB 天生的分布式属性,导致其不愿耗费精力来处理自增主键的同步问题。
ObjectId
关于 ObjectId 字段,官方文档中对每个字节所表示内容的说明:
ObjectId is a 12-byte BSON type, constructed using:
- a 4-byte value representing the seconds since the Unix epoch,
- a 3-byte machine identifier,
- a 2-byte process id, and
- a 3-byte counter, starting with a random value.
ObjectId 占 12 个字节,其中:
- 第 1、2、3、4 个字节用来存 Unix 时间戳
- 第 5、6、7 个字节用来存机器标识
- 第 8、9 个字节用来存客户端进程编号
时间戳 + 机器标识 + 客户端进程编号 保证 “机器 + 进程 + 时间” 的一致性。
- 第 10、11、12 个字节用来存随机字符串
保证同一台机器,同一个客户端进程,在一秒种之内创建的记录的一致性。
2 *_ (8 _ 3) = 16777216,也就是说,理论上,同一台机器,同一个客户端进程,在一秒种之内可以创建 1677 万多条记录。
举个例子,比如在 ObjectId("5746c0f900e0990cfc600939")
中 5746c0f9
就是时间戳,00e099
就是机器标识,0cfc
就是客户端进程编号,600939
就是随机字符串。
通过这个设计,保证不同机器的 mongod 服务、同一个机器上的不同 mongod 服务进程之间都不出现重复值的情况(可能性极低,如果出现,可能也有后续的处理办法)。
重点:ObjectId 在客户端生成!!!
我个人也觉得 ObjectId 在客户端生成比服务器端要好:
- 更加容易根据机器标识 + 进程编号保证记录的唯一性
- 将生成 ObjectId 的这一部分计算转移出去,也能略微减轻 MongoDB 服务的计算压力。
- 客户端插入记录的时候,自己就知道 ID,不需要服务器端的反馈,针对这个设计可以设计出一些不需要返回的 insert 方法,给服务器减少一些查询带来的压力。
PyMongo 中就是使用 bson.objectid.ObjectId
生成的。可以阅读一下相关代码,了解这个 ID 的生成方法。
PS:比如,在我的 Ubuntu 环境中,代码文件就是 /usr/local/lib/python2.7/dist-packages/bson/objectid.py
。
参考
Linux
2016-05-27
使用 tailf 查看 MongoDB 日志时报错:无法添加 inotify 观察(达到了 inotify 观察数限制)
Linux GRUB
2016-05-27
GRUB: GRand Unified Bootloader 统一引导程序
sudo vim /etc/default/grub
# 注释:GRUB_HIDDEN_TIMEOUT
# 修改:GRUB_HIDDEN_TIMEOUT= 秒数
sudo update-grub