问题PCA支持向量机大数据集
亲爱的所有人
我一直在使用Rapidminer 4.5 64位Windows Vista 64位jdk64位
内存4gb, CPU intel core2Duo 2.0 GHZ
我的Dataset有~30000个属性和~12000个实例
----------------------------------------------------------------------------------------------------
我尝试增加Rapidminer 4.5 >> edit 2文件的内存
C:\Program Files (x86)\Rapid-I\RapidMiner\scripts\ RapidMinerGUI
设置Java在这里或在环境变量中使用的最大内存量
# MAX_JAVA_MEMORY = 4000
if [-z "${MAX_JAVA_MEMORY}"];然后
MAX_JAVA_MEMORY = 4000
没有定义最大Java内存,使用4000mb…
C:\Program Files (x86)\Rapid-I\RapidMiner\scripts\ RapidMinerGUI.bat
快速眼动 ##########################################
rem ###设置最大内存量###
快速眼动 ##########################################
if "%MAX_JAVA_MEMORY%"=="" set MAX_JAVA_MEMORY=4000 .
--------------------------------------------------------------------------------------------------
我有问题吗?
1.现在我想在数据上使用特征选择运算符
PCA变换保持Top K的最高分,我想用SVM学习。我该怎么办?
我的XML
< /操作符>
< /操作符>
< /操作符>
< /操作符>
<列出关键= " application_parameters " >
< / >列表
< /操作符>
<列出关键= " class_weights " >
< / >列表
< /操作符>
< /操作符>
< /操作符>
< /操作符>
2.如果我想创建新的权重。形成我的数据集thairath2.arff
如。(Log2(我的数据集中的每个属性+2))^2
我该怎么做呢?
写入新文件和学习SVM....
请建议一步一步来。
3.我有一个问题“内存不足”错误,进程停止。在我的数据集中。
所以如果有人有想法/建议来解决我的问题,请让我知道。
把
nivet
我一直在使用Rapidminer 4.5 64位Windows Vista 64位jdk64位
内存4gb, CPU intel core2Duo 2.0 GHZ
我的Dataset有~30000个属性和~12000个实例
----------------------------------------------------------------------------------------------------
我尝试增加Rapidminer 4.5 >> edit 2文件的内存
C:\Program Files (x86)\Rapid-I\RapidMiner\scripts\ RapidMinerGUI
设置Java在这里或在环境变量中使用的最大内存量
# MAX_JAVA_MEMORY = 4000
if [-z "${MAX_JAVA_MEMORY}"];然后
MAX_JAVA_MEMORY = 4000
没有定义最大Java内存,使用4000mb…
C:\Program Files (x86)\Rapid-I\RapidMiner\scripts\ RapidMinerGUI.bat
快速眼动 ##########################################
rem ###设置最大内存量###
快速眼动 ##########################################
if "%MAX_JAVA_MEMORY%"=="" set MAX_JAVA_MEMORY=4000 .
--------------------------------------------------------------------------------------------------
我有问题吗?
1.现在我想在数据上使用特征选择运算符
PCA变换保持Top K的最高分,我想用SVM学习。我该怎么办?
我的XML
< /操作符>
< /操作符>
< /操作符>
< /操作符>
<列出关键= " application_parameters " >
< / >列表
< /操作符>
<列出关键= " class_weights " >
< / >列表
< /操作符>
< /操作符>
< /操作符>
< /操作符>
2.如果我想创建新的权重。形成我的数据集thairath2.arff
如。(Log2(我的数据集中的每个属性+2))^2
我该怎么做呢?
写入新文件和学习SVM....
请建议一步一步来。
3.我有一个问题“内存不足”错误,进程停止。在我的数据集中。
所以如果有人有想法/建议来解决我的问题,请让我知道。
把
nivet
标记:
0
答案
关于你的第一个问题:
简单地用合适的SVM算子交换NaiveBayes算子,用PCA交换ChiSquaredWeighting算子。
我不太明白你第二个问题的意思。你要用这个函数来变换每个属性吗?然后我将使用FeatureIterator,它将把每个属性名称存储到一个宏中,并执行它的子操作符。将AttributeGeneration操作符放入其中,并使用生成公式中的宏来选择当前属性。
第三个问题很简单:
计算主成分分析需要建立一个协方差矩阵。对于30.000个属性,仅协方差矩阵就需要大约9 GB RAM = (30.000 x 30.000 x 8字节)。不用说,内存中一定有两个矩阵同时存在……
问候,
塞巴斯蒂安。
我有什么问题吗?
1.我尝试从这个教程->http://kmandcomputing.blogspot.com/search/label/datamining。
但我找不到读取输入向量-->rapidminer 4.5 +文本插件4.5
我出错了---->
操作符需要com.rapidminer.example.ExampleSet类型的一些输入,但没有提供。每个操作符定义应用该操作符所需的输入(这些输入对象显示在操作符信息屏幕(F1)中)。先前的操作符必须加载或产生所需的输入对象。您可以通过验证实验来检查正确的实验设置(通过图标或菜单项)。
---------------------------------------------
<列出关键= "文本" >
< / >列表
<列出关键= "名称空间”>
< / >列表
< /操作符>
< /操作符>
< /操作符>
< /操作符>
< /操作符>
< /操作符>
“参数”<列表键= >
<参数键= " AttributeWeightSelection。k " value = " 100300500, 1000, 1500, 2000, 2500 " / >
< / >列表
< /操作符>
< /操作符>
< /操作符>
<列出关键= " class_weights " >
< / >列表
< /操作符>
<列出关键= " application_parameters " >
< / >列表
< /操作符>
<列出关键= " class_weights " >
< / >列表
< /操作符>
< /操作符>
< /操作符>
< /操作符>
--------------------------------------------------------------------------------
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.6314&;代表= rep1&type = pdf
并导出新文件。csv或预处理到infoainweighting -----> feature selection ----> SVM ->accurary…
我该怎么做呢?
把
nivet
我建议切换到RapidMiner 5.0。它省去了隐式的数据流,并显式地显示了数据的来源和去向,从而大大简化了流程设计。
不幸的是,我不明白,你要改变哪些值?
问候,
塞巴斯蒂安。