Stanford NER是一款斯坦福大学开源的命名实体类识别工具,此工具java实现。
主页地址:https://nlp.stanford.edu/software/CRF-NER.html
介绍:
Stanford NER是一个斯坦福大学开源的命名实体类识别工具,基于Java实现。
Stanford NER也被称为CRFClassifier。该软件提供(任意顺序)线性链条件随机场(CRF)序列模型的java实现。 也就是说,通过在标签数据上训练自己的模型,实际上可以使用此代码为NER或任何其他任务构建序列模型。
使用笔记:
Stanford NER的当前版本需要Java 1.8或更高版本。
下载地址:https://nlp.stanford.edu/software/CRF-NER.shtml#Download
提供命令行使用方式,参考:https://nlp.stanford.edu/software/CRF-NER.html
stanford 提供三种类别模型:
三种类别的: 3 class: Location, Person, Organization (训练于下面所有数据集以及一些额外数据集)
四种类别的: 4 class: Location, Person, Organization, Misc (训练于CoNLL 2003 eng.train)
七种类别的: 7 class: Location, Person, Organization, Money, Percent, Date, Time
(训练于MUC 6 and MUC 7训练数据集)
模型下载地址:https://stanfordnlp.github.io/CoreNLP/index.html#download
包括中文英文以及一些其他语言的以及训练好的模型。
一个简单的demo:
首先导入相关的jar包:
代码:
public class NERdemo {
private static AbstractSequenceClassifier<CoreLabel> ner;
public NERdemo() {
InitNer();
}
public void InitNer() {
String serializedClassifier = "classifiers/english.muc.7class.distsim.crf.ser.gz";
if (ner == null) {
ner = CRFClassifier.getClassifierNoExceptions(serializedClassifier);
}
}
public String doNer(String sent) {
return ner.classifyWithInlineXML(sent);
}
public static void main(String args[]) {
Options op = new Options();
String str = "today is sunday it is a good day 12 china";
NERdemo extractDemo = new NERdemo();
System.out.println(extractDemo.doNer(str));
System.out.println("Complete!");
}
}
结果: