文档读取
推荐采用 utf-8格式的编码,可以兼容 ASCII编码
csv
1 | from urllib.request impost urlopen |
1 | pdfplumber |
1 | PDFMiner3K |
Word
1 |
Python处理大数据文本文件
使用open()的方式
1 | read()会一次性读取文件的全部内容,返回字节(大文件内存不够) |
with
1 | with语句打开和关闭文件,包括抛出一个内部块异常。for line in f文件对象f视为一个迭代器,会自动的采用缓冲IO和内存管理,所以你不必担心大文件。 |