导入CSV文件,无假换行

MarkusWMarkusW 成员职位:22贡献我
2021年9月编辑 帮助
你好,
我目前正在写我的机器学习学士学位(特别是讽刺检测)。
我的教授推荐Rapid Miner。
这里有一个问题:当尝试导入我打算使用的语料库时(我已经在一个调查中使用了这个语料库,并且在参考的数十个作品中也使用了这个语料库),Rapid Miner将属于最后一列的内容移动到第一列,大概是因为那里的文本包含换行符。
如果到目前为止我必须使用的任何其他软件都能做到这一点,我可能知道该怎么做……
我尽我所能告诉快速矿工忽略一切不是一个标签。
标记:

最好的答案

  • kaymankayman 成员职位:662独角兽
    2021年9月编辑 解决方案接受
    您可以尝试先将每个换行符替换为一个虚拟字符串(例如[lb]),然后在将其加载为csv后再将其替换为换行符。

    添加换行符是一个肮脏的技巧,因为您不能轻松地使用正则表达式添加它们,但对我来说有效的是首先创建一个值为%0A的属性,这是换行字符,然后使用decode url操作符对其进行解码,并将其存储为宏。然后可以使用宏将其作为替换值插入。

    或者你可以用notepad++之类的提前替换它们,这里你可以直接用\\r\\n替换。(单斜杠而不是双斜杠,否则这里不会显示)

    然后,如果您的csv正在寻找制表符作为行号,它应该忽略所有的“假”。会不会是你的内容中有unicode选项卡导致了这种行为?
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:909独角兽
    解决方案接受
    CSV确实没有很好的规范,一些程序可以比RapidMiner更好地处理引号内的换行。

    对我来说,手动转换为Excel,然后在RapidMiner中读取Excel是一个可能的解决方案。

    当然,我努力尽可能早地将所有内容放在关系数据库中,这样这些问题就会消失。

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:909独角兽
    你好,

    您可以使用其他软件导入CSV并以更结构化的格式(如xlsx)或导出到数据库中。RapidMiner将毫无问题地读取这些换行符。

    如果您使用调查软件,那么除了CSV之外,您应该有其他导出选项。

    问候,
    Balazs
  • MarkusWMarkusW 成员职位:22贡献我
    嗨,Balazs,
    谢谢你的快速回复。
    问题是:它不起作用。我根本无法导入。db文件。
    虽然在lib -office中打开它,并将其保存为xlsx似乎可以工作,但我不认为这是解决文本工作问题的方法
登录注册置评。