受欢迎的博客标签

英文关键字提取工具

Published

开源工具

RAKE(https://github.com/zelandiya/RAKE-tutorial)
KEA(http://www.nzdl.org/Kea/) 监督式机器学习,使用训练数据和受控词表。
maui indexer(https://code.google.com/archive/p/maui-indexer/) 在kea的基础上进行拓展,增加新的特征项目,拓展了维基百科作为受控词表。
carrot2(http://project.carrot2.org/) 无监督方法,支持多种输入,输出格式和参数设置。
mallet topic modeling module(http://mallet.cs.umass.edu/topics.php)
Stanford topic modeling tool (http://nlp.stanford.edu/software/tmt/tmt-0.3/)
Mahout clustering algorithms(http://mahout.apache.org/)

商业API


Alchemy API(http://www.alchemyapi.com/api/keyword-extraction)
zemanta API(http://developer.zemanta.com/)
yahoo term extraction api
(https://developer.yahoo.com/search/content/V1/termExtraction.html)

开源的目前主要使用了RAKE,KEA和maui indexer。
RAKE(Rapid Automatic Keyword Extraction)算法的一篇翻译版的文章(http://python.jobbole.com/82230/),这篇文章的原作者是Alyona Medelyan,RAKE的更新版本就是她完成的,muai indexer也是她的杰作,她的GitHub上有很多关键字提取的项目。(https://github.com/zelandiya)。