受欢迎的博客标签

ansj中英混搭提取关键词

Published

  public static void main(String[] args)

{

KeyWordComputer kwc = new KeyWordComputer(6);

String title = "马航";

String content = "搜救helloworld,hi,hi,boy,girl)"; 

List<Keyword> list = kwc.computeArticleTfidf(title, content);

if(list != null && list.size() > 0)

{

for(Keyword kw : list){ System.out.println(kw.getName() + kw.getScore());}}}

需要改KeyWordComputer这个类的关于英语的POS_SCORE

http://www.aboutyun.com/thread-11927-1-1.html.

其他:

关键词提取参考hanlp的实现:https://github.com/hankcs/HanLP

面向生产环境的多语种自然语言处理工具包,基于 TensorFlow 2.x,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。内部算法经过工业界和学术界考验,配套书籍《自然语言处理入门》已经出版。目前,基于深度学习的HanLP 2.0正处于alpha测试阶段,未来将实现知识图谱、问答系统、自动摘要、文本语义相似度、指代消解、三元组抽取、实体链接等功能。欢迎加入蝴蝶效应参与讨论,或者反馈bug和功能请求到issue区。Java用户请使用1.x分支 ,经典稳定,永久维护。RESTful API正在公测中,2.0正式版将支持包括Java、Python在内的开发语言.