截断一个CSV文件

NoorKhalifaNoorKhalifa 成员职位:7学我
3月27日编辑 帮助
我有一个CSV文件约4000行文本。我想用阿拉伯光干器来记录每条记录。

我已经做了以下,但文本没有被阻止。输出与输入相同。


以及过程内部

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:914独角兽
    嗨!

    要词干,首先你需要单词。在词干之前使用Tokenize将文本分割成单词。

    问候,

    Balazs
    NoorKhalifa
  • NoorKhalifaNoorKhalifa 成员职位:7学我
    @BalazsBarany

    我做了以下工作



    在流程中,但输出仍然与输入完全相同。

    阅读阿拉伯语文本有问题吗?

    我在导入CSV文件时指定了编码方法为UTF-8。我还需要做些什么吗?
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:914独角兽
    你好,

    在Tokenize之后放置一个断点,并使用设置。如果看到不同颜色的单词,则表示标记工作正常。

    我不知道阿拉伯文本的约定,可能需要不同的单词分隔符等。

    如果文本在RapidMiner中看起来正常,那么编码是正确的。你会看到它被错误的编码破坏了。

    问候,

    Balazs
  • NoorKhalifaNoorKhalifa 成员职位:7学我
    @BalazsBarany

    我正面临这个问题,可能的原因是什么?


  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:914独角兽
    你好,

    你需要使用标称文本之前过程文档以便将标称属性标记为文本(适用于文本处理操作符)。

    问候,
    Balazs
    NoorKhalifa
  • NoorKhalifaNoorKhalifa 成员职位:7学我
    @BalazsBarany

    当我在Stem后面加上一个断点时,我可以看到正确的词根句子。但是结果中的最终输出如下所示。我能做些什么来解决这个问题?我希望输出是词干句子的行数。


  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:914独角兽
    嗨!

    使用所有“过程文档”操作符都有的“保留文本”选项。

    Process Documents的默认操作模式是创建适合机器学习方法的宽表。

    标记化可以将文本分成字母、单词或句子。词干法适用于单词,至少在西方语言中是这样。

    问候,
    Balazs
    NoorKhalifa
  • NoorKhalifaNoorKhalifa 成员职位:7学我
    @BalazsBarany

    太好了,问题解决了。但现在,当我使用写CSV输出CSV文件中没有阿拉伯语文本。

    我将编码设置为UTF-8读CSV写CSV,以及在白色画布上按压时的过程。

    怎么解呢?


  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:914独角兽
    嗨!

    尝试使用可以设置导入编码的软件。当只是打开CSV文件时,Excel不是很聪明。在Excel中导入也可以工作,在那里你会得到一个选择编码的对话框。

    文本文件的编码对大多数软件来说并不明显。它通常需要手动指定。您可以使用高级编辑器(GVim, notepad++等)来确定文件本身是否真的是UTF-8。

    问候,
    Balazs
    NoorKhalifa
  • jwpfaujwpfau 员工,成员职位:229RM工程
    嗨努尔,

    Excel似乎已经将CSV导入到数据→从文本/CSV



    问候,
    乔纳斯
    NoorKhalifa
  • NoorKhalifaNoorKhalifa 成员职位:7学我
    @jwpfau

    你好!

    点击“从文本/CSV”后,我该怎么办?


  • jwpfaujwpfau 员工,成员职位:229RM工程
    嗨努尔,

    对我来说,第一个对话框是“导入数据”文件选择器,第二个是我截图中的csv表预览。

    我担心excel自动检测完全失败为您的文件,有什么在“打开为”菜单上说csv或utf-8?

    问候,
    乔纳斯
    NoorKhalifa
  • NoorKhalifaNoorKhalifa 成员职位:7学我
    @jwpfau

    我无法在Excel中做到这一点,但在记事本中导入文件给了我阿拉伯语版本。

    谢谢!
  • jwpfaujwpfau 员工,成员职位:229RM工程
    嗨努尔,

    您可以在这里强制进行CSV解析。



    但是之后您将停留在更麻烦的电源查询编辑器流程中。

    问候,
    乔纳斯
登录注册置评。