带有过程文档的实体抽取
JeffChowaniec
员工,成员职位:13RM数据科学家
实体提取:
利用文本挖掘扩展和耦合过程文档操作符,我们可以构建一个实体抽取过程。
要求:
- 文本处理扩展
- 要提取的实体的文本文件
- 要提取的文本文件
对于实体文件,一个简单的CSV,其中每行是一个单独的实体
步骤1:
读取CSV -调用我们的实体CSV文件
从数据处理文档-将读取的CSV发送到处理文档中
在处理来自数据的文档中,我们将需要一个过滤器令牌和一个转换大小写(小写)
步骤2:
使用第一步的单词列表输出,我们将其连接到Process Documents操作符,以便从文本中提取单词列表。
1
评论
关于步骤2:第二个流程文档涉及什么流程,然后,如何创建文档?
另一个问题,在创建文档之后(有一个我们想提取的句子)。
如何将句子与数据库的使用进行匹配?