python中的解码函数 python 编解码

Python 读写文件的编码与解码问题

演示文件为docx文档，内容如下：

创新互联是一家集网站建设,巴州企业网站建设,巴州品牌网站建设,网站定制,巴州网站建设报价,网络营销,网络优化,巴州网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

源码

运行源码查看报错信息

UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 15: illegal multibyte sequence

上述错误是一种很常见的解码错误，下面介绍该错误的解决方法

把utf-8，gbk等各种编码方式都试了一遍，还是没有解决问题然后仔细看报错信息，根据UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfb in position 14: invalid start byte，猜测文件中某个字节不能解码，打开文件一看，并没有看出什么问题来

open() 函数的第三个参数不是用来接收编码方式的，而是传入一个buffering的值，此处传入了'gbk'字符串，所以系统提示传一个整型

通过调用office的API进行操作，因为在office上能完成的操作，都能通过win32完成，所以我们选择使用win32

（Python3.5 需要安装 win32compat，里面含了 win32 的很多包）

Python 中 base64 编码与解码

base64 是经常使用的一种加密方式，在 Python 中有专门的库支持。

本文主要介绍在 Python2 和 Python3 中的使用区别：

在 Python2 环境：

在 Python3 环境：

Python3 中有一些区别，因为 Python3 中字符都是 unicode 编码，而 b64encode 函数的参数为 byte 类型，所以必须先转码。

以上就是本文的全部内容，如果觉得有用的话欢迎点赞和转发，多谢。

python str与bytes编码解码

下面一张图搞懂编码、解码、编码表之间的关系。

不难看出，它们是一种根据编码表进行翻译、映射的过程：

实际上，字符串类型只有encode()方法，没有decode()方法，而bytes类型只有decode()方法而没有encode()方法。

二进制格式的数据也常称为裸数据(raw data)，所以str数据经过编码后得到raw data，raw data解码后得到的str。

上面说了，编码是将字符数据转换成字节数据(raw data)，解码是将字节数据转换成字符数据。在Python中字符数据也就是字符串，即str类型，字节数据也就是bytes类型或bytearray类型。

编码时，可以使用字节类型的构造方法bytes()、bytearray()来构造字节，也可以使用str类型的encode()方法来转换。

解码时，可以使用str类型的构造方法str()来构造字符串，也可以使用bytes、bytearray()类型的decode()方法。

另外需要注意的是，编码和解码的过程中都需要指定编码表(字符集)，默认采用的是utf-8字符集。

例如，使用encode()的方式将str编码为bytes数据。

使用bytes()和bytearray()将str构造成bytes或bytearray数据，这两个方法都要求str-byte的过程中给定编码。

实际上，bytes()、bytearray()这两个方法构造字节数据的时候还有点复杂，因为可以从多个数据源来构造，比如字符串、整数值、buffer。如何使用这两个方法构造字节数据，详细内容参考help(bytes)和help(bytearray)给出的说明，这里给几个简单示例。

构造bytes的方式：

构造bytearray的方式：

解码是字节序列到str类型的转换。

例如，使用decode()方法进行解码"我"字，它的utf-8的编码对应为"\xe6\x88\x91"：

使用str()进行转换。

当编码、解码的过程使用了不同的(不兼容的)编码表时，就会出现乱码。所以，解决乱码的唯一方式是指定对应的编码表进行编码、解码。

例如，使用utf-8编码"我"字，得到一个bytes序列，然后使用gbk解码这个bytes序列。

这里报错了，因为utf-8的字节序列里有gbk无法解码的字节。如果使用文本编辑器一样的工具去显化这个过程，得到的将是乱码字符。

原文地址：

python基础——编码、bytes与str转换及格式化

对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

最常用的编码是UTF-8，如果没有特殊业务要求，请牢记仅使用UTF-8编码。

在爬虫中会经常遇见，需要用encode和decode来进行互相转码

str转bytes

注意，含有中文字符的str不能用acsii格式转码

bytes转str

** 程序中经常会遇到个别字符转码不成功而报错，因此在decode方法中需要这个参数errors='ignore'忽略错误的字节

注意格式化的数据格式

【Python】浅谈python中的json

一前言

最近一直在做开发相关的工作--基于Django的web 平台，其中需要从model层传输数据到view 层做数据展示或者做业务逻辑处理。我们采用通用的Json格式--Json(JavaScript Object Notation) 是一种轻量级的数据交换格式，易于阅读和程序解析。

二认识Json

2.1 Json 结构

常见的Json格式为 “名称/值”对的集合,其中值可以是对象，列表，字典，字符串等等。比如

backup_data = {"back_to_host": "dbbk0",

"ip_address": "10.10.20.3",

"host_name": "rac4",

"port": 3306}

2.2 使用Json

Python的Json模块序列化与反序列化的过程分别是编码和解码。这两个过程涉及到两组不同的函数

编码把一个Python对象编码转换成Json字符串，json.dumps(data)/json.dump(data,file_handler)

解码把Json格式字符串解码转换成Python对象，json.loads(data)/json.load(file_handler)

在python中要使用Json模块做相关操作，必须先导入:

import Json

2.3 主要函数

编码函数主要有 json.dumps(data)/json.dump(data,file_handler)

json.dumps()的参数是将python对象转换为字符串，如使用json.dumps序列化的对象json_dumps=json.dumps({'a':1, 'b':2}) ，json_dumps='{"b": 2, "a": 1}'

json.dump 是将内置类型序列化为json对象后写入文件。

解码函数主要由json.loads(data)/json.load(file_handler)

json.loads的参数是内存对象，把Json格式字符串解码转换成Python对象,json_loads=json.loads(d_json) #{ b": 2, "a": 1}，使用load重新反序列化为dict

json.load()的参数针对文件句柄，比如本地有一个文件/tmp/test.json json_load=json.load(open('/tmp/test.json'))

具体案例参考如下:

In [3]: data={"back_to_host": "rac1",

...: "ip_address": "10.215.20.3",

...: "host_name": "rac3",

...: "port": 3306}

In [7]: json_str=json.dumps(data)

In [8]: print json_str

{"ip_address": "10.215.20.3", "back_to_host": "rac1", "host_name": "rac3", "port": 3306}

In [9]: json_loads=json.load(json_str)

---------------------------------------------------------------------------

AttributeError Traceback (most recent call last)

ipython-input-9-180506f16431 in module()

---- 1 json_loads=json.load(json_str)

/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/json/__init__.pyc in load(fp, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)

284

285 ""

注意从上面的报错信息来看 json.loads 传参是字符串类型，并不是文件句柄，没有 read()属性。

In [10]: json_loads=json.loads(json_str)

In [11]: print json_loads

{u'back_to_host': u'rac1', u'ip_address': u'10.215.20.3', u'host_name': u'rac3', u'port': 3306}

In [12]: type(json_loads)

Out[12]: dict

In [13]: type(json_str)

Out[13]: str

利用dump 将数据写入 dump.json

In [17]: with open('/tmp/dump.json','w') as f:

...: json.dump(json_str,f)

...:

yangyiDBA:~ yangyi$ cat /tmp/dump.json

"{\"ip_address\": \"10.10.20.3\", \"back_to_host\": \"rac1\", \"host_name\": \"rac3\", \"port\": 3306}"

yangyiDBA:~ yangyi$

利用json.load 将dump.sjon的数据读出来并赋值给 data

In [18]: with open('/tmp/dump.json','r') as f:

...: data=json.load(f)

...:

In [19]: print data

{"ip_address": "10.10.20.3", "back_to_host": "rac1", "host_name": "rac3", "port": 3306}

三小结

本文算是一篇学习笔记，主要对比了json.loads/json.load , json.dumps/ json.dump 的使用差异，方便以后更好的使用json 。

以上为本次分享内容，感谢观看。