中文自然语言预处理总结

中文文本预处理总结

1、文本数据准备

2、全角与半角的转化

3、文本中大写数字转化为小写数字

4、文本中大写字母转化为小写字母

5、文本中的表情符号去除（只保留中英文和数字）

中文文本预处理总结

1、文本数据准备

（1）使用已有的语料库

（2）网络爬虫获取自己的语料库（可以使用beautifulsoup等爬虫工具）


#读取文件列表数据,返回文本数据的内容列表和标签列表
def filelist_contents_labels(filelist):
    contents=[]
    labels = []
    for file in filelist:
        with open(file, "r", encoding="utf-8") as f:
            for row in f.read().splitlines():
                sentence=row.split('\t')
                contents.append(sentence[-1])
                if sentence[0]=='other' :
                    labels.append(0)
                else:
                    labels.append(1)
    return contents,labels

2、全角与半角的转化

在自然语言处理过程中，全角、半角的的不一致会导致信息抽取不一致，因此需要统一。中文文字永远是全角，只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角，占半个汉字的位置叫半角。标点符号在中英文状态下、全半角的状态下是不同的。

有规律（不含空格）：全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）；半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）

特例：空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）

#全角转半角
def full_to_half(sentence):      #输入为一个句子
    change_sentence=""
    for word in sentence:
        inside_code=ord(word)
        if inside_code==12288:    #全角空格直接转换
            inside_code=32
        elif inside_code>=65281 and inside_code<=65374:  #全角字符（除空格）根据关系转化
            inside_code-=65248
        change_sentence+=chr(inside_code)
    return change_sentence

ord() 函数是 chr() 函数（对于8位的ASCII字符串）或 unichr() 函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的 ASCII 数值，或者 Unicode 数值，如果所给的 Unicode 字符超出了你的 Python 定义范围，则会引发一个 TypeError 的异常。

#半角转全角
def hulf_to_full(sentence):      #输入为一个句子
    change_sentence=""
    for word in sentence:
        inside_code=ord(word)
        if inside_code==32:    #半角空格直接转换
            inside_code=12288
        elif inside_code>=32 and inside_code<=126:  #半角字符（除空格）根据关系转化
            inside_code+=65248
        change_sentence+=chr(inside_code)
    return change_sentence