python中怎么处理文本数据-创新互联

这篇文章给大家介绍python中怎么处理文本数据，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

为金台等地区用户提供了全套网页设计制作服务，及金台网站建设行业解决方案。主营业务为成都网站制作、成都做网站、金台网站设计，以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

1）问题描述

数据：某个区域181天内的访客数据，格式如下，第一列代表访客的名称，第二列代表这位访客在181天内到达这片区域的时刻：

python中怎么处理文本数据

目的：将访客数据进行统计，并时间离散化，按照天 /周/小时处理为72624的三维矩阵。
也就是说，矩阵中的每一个值，代表该区域周X、第几周、几点的到访人数，如
[1,5,19]=100,代表第5周的周一晚上7点的人数为100。

2）难点

当然是对我的难点。

2.1）怎么按行统计

2.2）怎么进行时间离散化（存为天、周、时刻的矩阵）

3）代码

import time
import numpy as np
import sys
import datetime
import pandas as pd
import os
#用字典查询代替类型转换，可以减少一部分计算时间
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
#print(datestr2dateint)
#
for i in range(24):
 str2int[str(i).zfill(2)] = i
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')

#print(table.shape)
#print(table.ix[1])
strings = table[1]
#print(strings)
init = np.zeros((7, 26, 24))
for string in strings:
 temp = []
 for item in string.split(','):
 temp.append([item[0:8], item[9:].split("|")])
 for date, visit_lst in temp:
 # x - 第几周
 # y - 第几天
 # z - 几点钟
 # value - 到访的总人数
 # print(visit_lst)
 print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 统计到访的总人数
  init[x][y][str2int[visit]] += 1
 #print(init[x][y][str2int[visit]])```

3.1）创建字典，时间离散化，节省时间

此处创建了三个字典，让我们看一下代码实现以及打印结果：

date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
 date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
 #print(i,":",date)
 date_int = int(date.__str__().replace("-", ""))
 date2position[date_int] = [i%7, i//7]
 datestr2dateint[str(date_int)] = date_int
for i in range(24):
 str2int[str(i).zfill(2)] = i

打印一下 date2position：

python中怎么处理文本数据

打印一下 datestr2dateint：

python中怎么处理文本数据

打印str2int：

python中怎么处理文本数据

可以看出，datestr2dateint是将str的日期，转换为了int的日期。
而date2position 才是计算出的每一个具体的日期，代表了第几周、第几天。
str2int代表了一天中的24个时刻。

3.2）读取文件，按行获取字符串

注意到文本的分隔符为\t（区分用户名与到访信息的分割），于是采用

f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')

然后用strings读取到访信息，也就是table的第二列：

strings = table[1]

3.3）切分字符串

首先，strings为：

python中怎么处理文本数据

可以看到每一行string,为一个用户的到访记录，循环读取。其中，不同日期的到访是用“，”隔开，故要使用：

for string in strings:
 temp = []
 for item in string.split(','):

item就可以分开每一个日期的到访记录了：

python中怎么处理文本数据

其后，使用temp列表，每一行存储日期和时刻。
如第一个item为 20181221&09|10|11|12|13|14|15
日期为 item[0:8],
时刻之间使用分隔符“|”隔开，故可以通过item[9:].split("|")得到。

temp.append([item[0:8], item[9:].split("|")])

打印一下temp为：

python中怎么处理文本数据

所以需要用两个数据分别存储日期，以及时刻。
首先用来转换成周、天、时刻的72624矩阵（根据前面的转换函数）
其后根据这个矩阵，统计每一个位置的访客数量

for date, visit_lst in temp:
 # x - 第几周
 # y - 第几天
 # z - 几点钟
 # value - 到访的总人数
 # print(visit_lst)
 #print(date)
 x, y = date2position[datestr2dateint[date]]
 for visit in visit_lst: # 统计到访的总人数
  init[x][y][str2int[visit]] += 1

关于python中怎么处理文本数据就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

网站名称：python中怎么处理文本数据-创新互联
网站URL：http://cdiso.cn/article/pipep.html

python中怎么处理文本数据-创新互联

其他资讯