Python脚本操作符

Mohamad1367Mohamad1367 成员职位:22贡献我
2020年6月编辑 帮助
嗨,亲爱的社区……我有一个关于python脚本操作符的问题…我有一个波斯语的数据集,我想对其进行标记,然后过滤停止词……对于标记化,我使用玫瑰花扩展,但对于停止词删除,我想使用python编写的代码…在我的过程中我应该把这个算子放在哪里?有人来帮我吗?
标记:

答案

  • kaymankayman 成员职位:662独角兽
    真的有必要使用外部停词表或玫瑰表吗?
    文本挖掘扩展也具有所有这些选项,通过这种方式,您可以使工作流程更有条理。
  • Mohamad1367Mohamad1367 成员职位:22贡献我
    @kayman是的,我需要玫瑰扩展来标记我的数据集,因为我的数据集是波斯语,玫瑰支持这种语言,但文本挖掘扩展不支持波斯语
  • kaymankayman 成员职位:662独角兽
    显然,波斯语确实不在标准工具包中。
    我不熟悉rosetta输出,但它似乎是一个示例集,您可以直接在rosetta操作符之后添加python操作符。这样就可以重用现有的代码。

    sara20
  • sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    @Mohamad1367在社区样本库中有一个波斯语停顿词词典:



    斯科特
登录注册置评。