【自然语言处理】第1部分:识别文本中的个人身份信息
apaas.dev
1 June 2023
在文本文档中查找个人身份信息(PII)可能很有用,原因有几个,但我多次遇到的一个用例是帮助匿名化文本数据,以便:
- 与第三方共享数据
- 遵守GDPR等法规要求
- 用作机器学习和其他探索性分析的训练数据
- 你是Facebook,你终于想做正确的事情了(/S)
我将尝试自动化查找PII的过程,在本系列文章中,我们将探索一些流行的开源工具和技术,以便在我们自己的数据中识别不同类型的PII。
介绍spaCy
命名实体识别(NER)试图识别文本数据中有意义的单词,如人名、地点、日期等。有几个开源工具使用NER来帮助识别有意义的词,我们将在本文中重点介绍的一个非常受欢迎的项目叫做spaCy。
spaCy是一个用于自然语言处理的免费开源python库,具有NER功能,可以帮助我们识别人名、地点和其他潜在有用的信息。
Python示例
先决条件: