01 文件的概念和作用
- 计算机的 文件,就是存储在某种 长期存储设备(磁盘) 上的一段 数据
长期存储的设备包括:硬盘、u盘、移动硬盘、光盘... - 文件的作用:将数据长期保存下来,在需要的时候使用
02 文件的存储方式
在计算机中,文件是以 二进制的方式保存在磁盘上的
文本文件:
- 可以使用文本编辑软件查看
- 文本文件本质上还是二进制文件
二进制文件:
- 保存的内容不是给人直接阅读的,而是提供给其他软件使用的
- 例如:图片文件、音频文件、视频文件等
二进制文件不能使用文本编辑软件查看(例如图片需要使用图片查看器)
03 文件的基本操作
- 操作文件的套路:在计算中操作文件的套路非常固定,一共包含3个步骤
1、打开文件
2、读、写文件
读 将文件内容读入内存
写 将内存内容写入文件
3、关闭文件
在python中要操作文件需要记住1个函数+3个方法:
- 函数open:打开文件,并且返回文件操作对象(python中一切皆是对象)
open 函数的第一个参数是要打开的文件名(文件名区分大小写),如果文件存在,就返回文件操作对象,如果文件不存在,就会抛出异常。 - 方法read:将文件内容读取到内存中
read方法可以一次性读入并返回文件的所有内容 - 方法write:将指定内容写入文件
- 方法close:关闭文件
注意:
- open函数负责打开文件并且返回文件对象,其他三个方法都需要通过文件对象调用
- 如果忘记关闭文件,会造成系统资源消耗,而且会影响到后续对文件的访问。因此我们一般都是先写打开文件和关闭文件的代码,再去写中间对文件处理的代码,这样可以避免忘记关闭文件。
# 1、打开文件 file = open("README",encoding='utf-8') # 2、读取文件内容 text = file.read() print(text) # 3、关闭文件 file.close()
04 文件指针(知道)
- 文件指针 标记 从哪个位置开始读取数据
- 第一次打开 文件时,通常文件指针会指向文件的开始位置
- 当执行了read方法后,文件指针会移动到读取内容的末尾
- 思考:如果执行了一次read方法,读取了所有内容,那么再次调用read方法,还能获取到内容吗?
- 答:不能,第一次读取之后,文件指针移动到了文件末尾,再次调用不会读取到任何的内容。
05 打开文件的方式
- open 函数默认以 只读方式 打开文件,并且返回文件对象
- 语法:file = open("文件名","访问方式")
- 访问方式:
- r :(这是默认方式)以只读方式打开文件,文件的指针将会放在文件开头;如果文件不存在会抛出异常
- w : 以只写的方式打开文件,如果文件存在会被覆盖;如果文件不存在,则创建新文件
- a : 以追加写的方式打开文件,如果文件已经存在,文件指针将会放在文件结尾;如果文件不存在,则创建新文件进行写入
- 注意:频繁移动文件指针,会影响文件的读写效率,开发中更多的是以 只读、只写的方式来操作文件。(还有三种方式 r+ w+ a+ 不太用)
06 按行读取文件内容
- read方法默认会把文件内容一次性读取到内存中
- 如果文件太大,对内存占用将会非常严重
- readline 方法可以一次读取一行内容
- 方法执行后,会把文件指针移动到下一行,准备再次读取
读取大文件的正确姿势:# 1、打开文件 file = open("README",encoding='utf-8') while True: # 2、读取文件内容 text = file.readline() if not text: break # 每读取一行的末尾已经有了一个"\n" print(text,end="") # 3、关闭文件 file.close()
07 文件读写案例——复制文件
目标:用代码的方式,来实现文件的复制过程
小文件复制:打开一个已有文件,读取完整内容,并写入到另一个文件
file = open("README") file1 = open("README[复制]","w") text = file.read() file1.write(text) file.close() file1.close()
大文件复制:打开一个已有文件,逐行读取内容,并顺序写入到另一个文件
file = open("README") file1 = open("README[复制]","w") while True: text = file.readline() if not text: break file1.write(text) file.close() file1.close()
08 python中文件/目录的常用操作管理
我们知道,在终端/文件浏览器中可以执行常规的文件、目录 管理操作,例如:创建、重命名、删除、改变路径、查看目录内容......
在python中如果希望通过程序实现上述功能,需要导入OS模块
- 文件操作:
- 目录操作:
- 提示:文件和目录的操作都支持 相对路径和绝对路径
09 文本文件的编码格式(科普)
文本文件存储的内容是基于字符编码的文件,常见的编码有 ASCLL 编码,UNICODE 编码等
- python2.x 默认使用 ASCII 编码
》在python2.x 中使用中文的方法是:
在python2.x 文件的第一行增加一行特殊的单行注释,解释器会以utf-8编码来处理python文件# *-* coding:utf8 *-*
》在python2.x 中即使指定了文件使用utf-8的编码格式,但是在遍历字符串时,仍然会以字节为单位遍历字符串
要能够正确的 遍历 字符串(含有除英文之外的语言),在定义字符串的引号前,增加一个小写字母u ,告诉解释器这是一个使用utf-8编码格式的字符串 - python3.x 默认使用 UTF-8 编码
ASCII 编码:一个ASCLL编码再内存中占用1个字节(最初是为了在计算机中使用英文)
UTF-8 是UNICODE编码的一种编码格式,计算机中使用1-6个字节来表示一个UTF-8字符(涵盖了地球上几乎所有地区的文字)大多数汉字使用 3个字节表示