作者在 2010-09-11 16:56:33 发布以下内容
Python3不必多说,直接像处理英文一样处理中文即可。Python2.x有些麻烦
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import re
message = u'天人合一'
print re.search(ur'''人''', message).group()
# -*- coding: UTF-8 -*-
import re
message = u'天人合一'
print re.search(ur'''人''', message).group()
如果message是取读自数据库或文件,一般都是utf8或gbk编码的,需要转成unicorn编码
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import re
message = db.select('.....')
print re.search(ur'''人''', message.decode('utf8')).group()
# -*- coding: UTF-8 -*-
import re
message = db.select('.....')
print re.search(ur'''人''', message.decode('utf8')).group()
也许大家注意到3引号前的ur了
三引号里面可以有随意的输入单引号或双引号,不用转义(当然如果是单三引号,里面输入三个单引号的时候还是要转义其中一个的,双三引号也是)
r可以忽略用'\'代替'\\',u可以把引号里面的字符转成unicode编码,这两步都需要的时候就在引号前面输入ur,而ru就报错