喵了个喵~
喵了个喵~
全部文章
NLP
c/c++(1)
归档
标签
去牛客网
登录
/
注册
喵了个喵~的博客
Nlp炼丹中......
全部文章
/ NLP
(共4篇)
FASPell论文阅读记录
背景 FASPell:A Fast,Adaptable,Simple,Powerful,Chinese Spell Checker Based On DAE-Decoder Paradim是由爱奇艺在2019年EMNLP会议上发表的论文。该文提出了一种解决中文拼写错误的新范式,抛弃了传统的混淆集转...
中文文本纠错
CSC
BERT
FASPell
论文
2020-04-14
0
1269
SIGHAN15 CSC任务当中的评价指标
简介 在文本拼写纠错任务(Chinese Spell Corrction)当中,评价指标是一个令人抓狂的问题,笔者一直没能梳理明白。在SIGHAN举办的三届CSC任务当中评价指标也经过了一些变化,本文对SIGHAN15当中的评价指标作简要的整理。 一.混淆矩阵 在SIGHAN15当中,将查错、纠...
中文文本纠错
CSC
评价标准
混淆矩阵
2020-04-03
0
2505
使用HTMLParser解析SGML文件
一.简介 在做FASPell复现时候需要多搜集一些训练语料。我把目光转向了SIGHAN举行的CSC比赛当中,其中SIGHAN14和SIGHAN15提供了共5000条训练语句,而且他们的格式一样,使用了相同的SGML语言来标记。 二.提醒 网络上较多的是使用sgmllib包中的SGMLParser来进...
预处理
SGML
HTMLParser
FASPell
SGMLParser
2020-03-30
0
936
FASPell论文复现记录
简介 最近在做FASPell的复现,遇到一些问题,做一个记录,此篇仅作FASPell README.md的补充。FASPell是由爱奇艺出品的,针对ocr识别后的文本纠错模型,在SIGHAN15数据集上能够达到SOTA的效果。其论文发表在EMNLP上,代码在github当中开源。 原理 由于对论文及...
中文文本纠错
CSC
BERT
FASPell
实验
2020-03-27
0
1510