登录
注册
乐鱼官网手机版下载
解决方案
乐鱼体育安装
定价
合作伙伴
公司
你好,陌生人!
看起来你是新来的。登录或注册开始。
使用RapidMiner登录
使用RapidMiner登录
登录
注册
快速链接
类别
最近的讨论
最好的…
没有回答
组
类别
17.5 k
所有类别
19.5 k
帮助
442
知识库
Altair RapidMiner社区
得到帮助。学习最佳实践。与你的同事建立联系。
讨论
查询TERADATA耗时太长
作者
日期内
1天
3天
1周
2周
1个月
2个月
6个月
1年
的
例如:周一,今天,上周,3月26日,3/26/04
搜索
0评论
0的讨论
0成员
0在线
问一个问题
寻找有用的视频
首页
;
帮助
查询TERADATA耗时太长
RapidMinerUser12
成员
职位:
11
学我
2019年11月
在
帮助
你好,
我有一个非常大的TERADATA数据库,有超过35 000 000行。
当我查询1 000 000行数据时,Read Database操作符在12秒内执行,当我试图选择所有行时,该过程运行了>40分钟,我不得不停止它。
我的问题是,这样的等待时间正常吗?如果没有,我如何缩短它并导入RapidMiner中TERADATA的所有数据?
我想在RapidMiner中做ETL。
提前谢谢你。
标记:
Teradata
读数据库
0
最佳答案
BalazsBarany
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家
职位:
913
独角兽
2019年11月
解决方案接受
你好,
你可以做一些小技巧。
第一种是使用LIMIT…弥补……在SQL。但是,这通常是低效的,因此请咨询您的数据库管理员。
另一种方法是查找具有10到100个可能值的标称属性,并循环这些值,选择具有当前值的子集。如果表中的分布或多或少是平衡的,则此方法有效。(一个值不像表的90%。)
如果您有数字id,则可以使用模函数只选择以0、1、2、3等结尾的id。
对于RapidMiner开发人员来说,如果您可以对1,5,10,15等百万行的性能进行基准测试,并在这里写下不可行的阈值,这将是很有趣的。也许他们可以优化处理这些信息的记忆。
问候,
Balazs
6
答案
BalazsBarany
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家
职位:
913
独角兽
2019年11月
嗨!
这可能是内存问题。RapidMiner的工作原理是将完整的数据集读取到计算机的主存储器中。如果您用数据压倒现有内存(听起来您正在这样做),那么一切都会变慢,例如因为交换。
最好是分批处理这3500万行,就像处理100万行那样。例如,您将使用Loop操作符之一。
对于这类大数据,总是尽量在数据库内部进行处理。它比单独的内存进程更擅长过滤、连接和排序。
您甚至不必为此学习SQL,如果您使用
数据库内处理
扩展。
问候,
Balazs
1
RapidMinerUser12
成员
职位:
11
学我
2019年11月
你好,
谢谢你的快速回答。
我们的机器有256gb的内存。数据库内处理不适用于Teradata。
我们的要求是,我们做一切从ETL在RapidMiner,而不是查询。
你能进一步说明我们如何批量处理这些数据吗?我们必须有一些类似指针的指示器,告诉数据库从哪里开始下一批数据。
提前谢谢你。
0
登录
或
注册
置评。
答案
这可能是内存问题。RapidMiner的工作原理是将完整的数据集读取到计算机的主存储器中。如果您用数据压倒现有内存(听起来您正在这样做),那么一切都会变慢,例如因为交换。
最好是分批处理这3500万行,就像处理100万行那样。例如,您将使用Loop操作符之一。
对于这类大数据,总是尽量在数据库内部进行处理。它比单独的内存进程更擅长过滤、连接和排序。
您甚至不必为此学习SQL,如果您使用数据库内处理扩展。
问候,
Balazs
谢谢你的快速回答。
我们的机器有256gb的内存。数据库内处理不适用于Teradata。
我们的要求是,我们做一切从ETL在RapidMiner,而不是查询。
你能进一步说明我们如何批量处理这些数据吗?我们必须有一些类似指针的指示器,告诉数据库从哪里开始下一批数据。
提前谢谢你。