查询TERADATA耗时太长

RapidMinerUser12 · 2019年11月

你好,

我有一个非常大的TERADATA数据库，有超过35 000 000行。
当我查询1 000 000行数据时，Read Database操作符在12秒内执行，当我试图选择所有行时，该过程运行了>40分钟，我不得不停止它。

我的问题是，这样的等待时间正常吗?如果没有，我如何缩短它并导入RapidMiner中TERADATA的所有数据?
我想在RapidMiner中做ETL。

提前谢谢你。

BalazsBarany · 2019年11月

你好,

你可以做一些小技巧。

第一种是使用LIMIT…弥补……在SQL。但是，这通常是低效的，因此请咨询您的数据库管理员。

另一种方法是查找具有10到100个可能值的标称属性，并循环这些值，选择具有当前值的子集。如果表中的分布或多或少是平衡的，则此方法有效。(一个值不像表的90%。)

如果您有数字id，则可以使用模函数只选择以0、1、2、3等结尾的id。

对于RapidMiner开发人员来说，如果您可以对1,5,10,15等百万行的性能进行基准测试，并在这里写下不可行的阈值，这将是很有趣的。也许他们可以优化处理这些信息的记忆。

问候,

Balazs

BalazsBarany · 2019年11月

嗨！

这可能是内存问题。RapidMiner的工作原理是将完整的数据集读取到计算机的主存储器中。如果您用数据压倒现有内存(听起来您正在这样做)，那么一切都会变慢，例如因为交换。

最好是分批处理这3500万行，就像处理100万行那样。例如，您将使用Loop操作符之一。

对于这类大数据，总是尽量在数据库内部进行处理。它比单独的内存进程更擅长过滤、连接和排序。

您甚至不必为此学习SQL，如果您使用数据库内处理扩展。

问候,

Balazs

RapidMinerUser12 · 2019年11月

你好,

谢谢你的快速回答。

我们的机器有256gb的内存。数据库内处理不适用于Teradata。
我们的要求是，我们做一切从ETL在RapidMiner，而不是查询。

你能进一步说明我们如何批量处理这些数据吗?我们必须有一些类似指针的指示器，告诉数据库从哪里开始下一批数据。

提前谢谢你。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

查询TERADATA耗时太长

最佳答案

答案