Stanford NER是一款斯坦福大学开源的命名实体类识别工具,此工具java实现。

主页地址:https://nlp.stanford.edu/software/CRF-NER.html

介绍:
Stanford NER是一个斯坦福大学开源的命名实体类识别工具,基于Java实现。

Stanford NER也被称为CRFClassifier。该软件提供(任意顺序)线性链条件随机场(CRF)序列模型的java实现。 也就是说,通过在标签数据上训练自己的模型,实际上可以使用此代码为NER或任何其他任务构建序列模型。

使用笔记:

Stanford NER的当前版本需要Java 1.8或更高版本。
下载地址:https://nlp.stanford.edu/software/CRF-NER.shtml#Download

提供命令行使用方式,参考:https://nlp.stanford.edu/software/CRF-NER.html

stanford 提供三种类别模型:
三种类别的: 3 class: Location, Person, Organization (训练于下面所有数据集以及一些额外数据集)
四种类别的: 4 class: Location, Person, Organization, Misc (训练于CoNLL 2003 eng.train)
七种类别的: 7 class: Location, Person, Organization, Money, Percent, Date, Time
(训练于MUC 6 and MUC 7训练数据集)

模型下载地址:https://stanfordnlp.github.io/CoreNLP/index.html#download
包括中文英文以及一些其他语言的以及训练好的模型。

一个简单的demo:
首先导入相关的jar包:

代码:

public class NERdemo {
    private static AbstractSequenceClassifier<CoreLabel> ner;

    public NERdemo() {
        InitNer();
    }

    public void InitNer() {
        String serializedClassifier = "classifiers/english.muc.7class.distsim.crf.ser.gz";
        if (ner == null) {
            ner = CRFClassifier.getClassifierNoExceptions(serializedClassifier);
        }
    }

    public String doNer(String sent) {
        return ner.classifyWithInlineXML(sent);
    }

    public static void main(String args[]) {

         Options op = new Options();

         String str = "today is sunday it is a good day 12 china";
         NERdemo extractDemo = new NERdemo();
         System.out.println(extractDemo.doNer(str));
         System.out.println("Complete!");
    }
}

结果: