查询TERADATA耗时太长

RapidMinerUser12RapidMinerUser12 成员职位:11学我
你好,

我有一个非常大的TERADATA数据库,有超过35 000 000行。
当我查询1 000 000行数据时,Read Database操作符在12秒内执行,当我试图选择所有行时,该过程运行了>40分钟,我不得不停止它。

我的问题是,这样的等待时间正常吗?如果没有,我如何缩短它并导入RapidMiner中TERADATA的所有数据?
我想在RapidMiner中做ETL。

提前谢谢你。

最佳答案

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:913独角兽
    嗨!

    这可能是内存问题。RapidMiner的工作原理是将完整的数据集读取到计算机的主存储器中。如果您用数据压倒现有内存(听起来您正在这样做),那么一切都会变慢,例如因为交换。

    最好是分批处理这3500万行,就像处理100万行那样。例如,您将使用Loop操作符之一。

    对于这类大数据,总是尽量在数据库内部进行处理。它比单独的内存进程更擅长过滤、连接和排序。

    您甚至不必为此学习SQL,如果您使用数据库内处理扩展。

    问候,

    Balazs
    Tghadially
  • RapidMinerUser12RapidMinerUser12 成员职位:11学我
    你好,

    谢谢你的快速回答。

    我们的机器有256gb的内存。数据库内处理不适用于Teradata。
    我们的要求是,我们做一切从ETL在RapidMiner,而不是查询。

    你能进一步说明我们如何批量处理这些数据吗?我们必须有一些类似指针的指示器,告诉数据库从哪里开始下一批数据。

    提前谢谢你。
登录注册置评。