1.常用操作符
算术操作符,赋值操作符,比较操作符和逻辑操作符
2.数字数据
变量与赋值、 数字数据类型
3.流程控制
条件语句、While语句、break语句和continue语句、for循环
4.数据结构
标量、序列、映射、集合
列表、列表函数、字符串、字符串函数、元组、字典、集合
5.文件读写镀金
文件访问是一门语言重要的一环,适当地进行文本读写能够保存一次程序 运行下来的结果。 在数据挖掘的工作中,数据量很大,整个挖掘程序可以分为几部分,我们 应该把每一部分运行的结果都保存下来,如果后面的程序出现错误,我们 也不必再从头开始。 要进行文件的读写,首先要设置工作目录。如果使用脚本运行,那么默认 的工作目录为脚本所在的目录。 要改变工作目录,首先要引入os模块,语句为:import os。查看当前工 作目录的方法是os.getwd(),改变工作目录的方法是os.chdir(string)。
Python进行文件读写的函数是open或file。其格式如下: file_handler = open(filename,mode=’r’) 其中filename是我们希望打开的文件的字符串名字,mode表示我们的读写模式,默认为read模式。如果此语句执行成功,那么一个文件句柄就会返回,后面的文件操作需依赖文件句柄的方法进行。 我们常用的文件读入函数是readline()和readlines()。 首先我们假设在我们脚本目录下有这样一个data.txt,其数据如下: 1,2 3,4 注意第一行中有一个换行符。如果我们采用readline()语句读取,执行f=open(‘data.txt’,’r’)和 a =f. readline(),那么就会将第一行以字符串的形式返回,此时a=’1,2\n’ 。
同时文件指针指向第一行末尾,如果再执行语句b = f.readline(),那么b=’3,4’ ,此时文件指针就指向文件末尾,文件已读取完毕。可以使用下面的while循环读取所有语句:L=2#文件的行数 for i in range(L): a = readline()# 对该行的处理 如果我们想去掉第一行的读取的换行符,可以使用语a=a.strip(),strip()是一个可以去掉一个字符串开头和末尾的空白字符,包括换行符。 而readlines则返回一个列表,列表的包含了每一行的字符串数据。如执行a=f.readlines(),那么此时a=[‘1,2\n’,’3,4’]。最终保存的形式是一个二维列表,在后面的数据处理可以很容易的变换为numpy.array,大部分数据挖掘的算法都需要numpy.array作为数据存储的格式。
:
csv文件读取:
文件输出:
我们把数据成功读入到程序中,现在我们考虑,假设我们的程序中得出了一个二维列表,我们重新输出到文件。 我们可以使用方法f.write(string),并且借助字符串的join方法输出到文件中。 如果二维列表的元素不是字符类型而是整数类型,我们不能使用join方法,使用f.write(string)输出比较麻烦,这里介绍另一中更灵活的输出到文件的方式:print>>>f,…。这样就会把原本print函数输出到shell的内容改为输出到文件中。
JSON处理数据: