斯坦福 CoreNLP 提供了一组用 Java 编写的自然语言分析工具 。它可以接收原始的人类语言文本输入 , 并给出单词的基本形式、词性、公司名称、人名等 , 规范化和解释日期、时间和数字量 , 标记句子的结构 在短语或单词依赖方面 , 并指出哪些名词短语指的是相同的实体 。
9、Pattern
8.1k GitHub stars.
注意:该库已经2年没有更新了
Pattern 是 Python 的web的挖掘工具包 , 它包含了:网络服务(谷歌、推特、维基百科)、网络爬虫和 HTML DOM 解析器 。它有几个自然语言处理模型:词性标注器、n-gram 搜索、情感分析和 WordNet 。它实现了机器学习模型:向量空间模型、聚类、分类(KNN、SVM、感知器) 。模式也可用于网络分析:图形中心性和可视化 。
10、TextBlob
8k GitHub stars.
TextBlob 是一个用于处理文本数据的 Python 库 。它提供了一个简单的 API , 用于深入研究常见的自然语言处理任务 , 例如词性标注、名词短语提取、情感分析、分类、翻译等 。TextBlob 站在 NLTK 和 Pattern 的基础上制作 , 并且可以很好地与两者配合使用 。
11、Hugging Face Tokenizers
5.2k GitHub stars.
该库提供了当今最常用的标记器的实现 , 重点是性能和通用性 。
12、Haystack
3.8k GitHub stars.
Haystack 是一个端到端框架 , 能够为不同的搜索用例构建功能强大且可用于生产的管道 。无论要执行问答还是语义文档搜索 , 都可以使用 Haystack 中最先进的 NLP 模型来提供独特的搜索体验并为用户提供使用自然语言进行查询的功能 。Haystack 以模块化方式构建 , 因此可以结合其他开源项目(如 Huggingface 的 Transformers、Elasticsearch 或 Milvus) 。
13、Snips NLU
3.6k GitHub stars.
注意:该库已经2年没有更新了
Snips NLU 是一个可以从用自然语言编写的句子中提取结构化信息的 Python 库 。每当用户使用自然语言与人工智能交互时 , 他们的文字都需要被翻译成机器可读的形式(向量) 。Snips NLU 的 NLU(自然语言理解)引擎首先检测用户的意图是什么(也就是意图) , 然后提取查询的参数(称为slots) 。
14、NLP Architect
2.8k GitHub stars.
NLP Architect 是一个用于探索用于优化自然语言处理和自然语言理解神经网络的最先进的深度学习拓扑和技术的Python 库 。它允许在应用程序中轻松快速地集成 NLP 模型 , 并展示优化的模型 。
15、PyTorch-NLP
2k GitHub stars.
PyTorch-NLP 扩展了 PyTorch并提供基本的文本数据处理功能 。
16、Polyglot
1.9k GitHub stars.
Polyglot 是一个支持大量多语言应用程序的自然语言管道:标记化(165 种语言)、语言检测(196 种语言)、命名实体识别(40 种语言)、部分语音标记(16 种语言)、情感分析(136 种语言)、Word 嵌入(137 种语言)、形态分析(135 种语言)和音译(69 种语言) 。
但是该库的最新更新时间是3年前 。
17、TextAttack
1.8k GitHub stars.
TextAttack 是一个用于 NLP 中的对抗性攻击、数据增强和模型训练 的Python 框架 。
18、Word Forms
513 GitHub stars.
Word forms可以准确地生成一个英语单词的所有可能形式 。它可以连接不同的词性 , 例如名词与形容词、形容词与副词、名词与动词等 。
19、Rosetta
420 GitHub stars.
Rosetta 是一个基于 TensorFlow 的隐私保护框架 。它集成了主流的隐私保护计算技术 , 包括密码学、联邦学习和可信执行环境 。Rosetta 重用了 TensorFlow 的 API , 只需极少的代码更改 , 就可以将传统的 TensorFlow 代码转换为隐私保护的方式运行 。
必备基础库这里列出了一些并非特定于 NLP 但仍然经常用于 NLP 项目的数据科学库 。
- 支付宝|独立摄影师 资讯日报2022年1月26日
- 一加科技|从5999元跌至3399元,12GB+256GB+IP68,顶配防水旗舰加速退场
- 牛电科技|任正非宁两败俱伤惩戒叛徒,华为曾经的接班人李一男,做了什么?
- 小米科技|2022年“5大最佳旗舰”手机推荐:颜值性能兼具,实力实至名归
- 小米科技|小米MIX4评测:屏下相机为什么没成主流,在它身上或许能找到答案
- 联想|2022年的联想,谁来收拾残局?只有一条路?
- 黑科技|永远保持新鲜感,红魔7曝四大行业首发神秘数字,或将配置这些黑科技
- 大屏|电商拐点已至,2022年迎来大变局!
- 麒麟980|2022年,麒麟980相当于联发科什么水平?
- 小米科技|男子花6千多买小米笔记本,进水后去官方店维修,不料工程师拉他私底下谈价格