问题PCA支持向量机大数据集

nivet · 2010年2月

亲爱的所有人
我一直在使用Rapidminer 4.5 64位Windows Vista 64位jdk64位
内存4gb, CPU intel core2Duo 2.0 GHZ
我的Dataset有~30000个属性和~12000个实例
----------------------------------------------------------------------------------------------------
我尝试增加Rapidminer 4.5 >> edit 2文件的内存
C:\Program Files (x86)\Rapid-I\RapidMiner\scripts\ RapidMinerGUI
设置Java在这里或在环境变量中使用的最大内存量
# MAX_JAVA_MEMORY = 4000
if [-z "${MAX_JAVA_MEMORY}"];然后
MAX_JAVA_MEMORY = 4000
没有定义最大Java内存，使用4000mb…

C:\Program Files (x86)\Rapid-I\RapidMiner\scripts\ RapidMinerGUI.bat
快速眼动 ##########################################
rem ###设置最大内存量###
快速眼动 ##########################################
if "%MAX_JAVA_MEMORY%"=="" set MAX_JAVA_MEMORY=4000 .

--------------------------------------------------------------------------------------------------

我有问题吗?

1.现在我想在数据上使用特征选择运算符
PCA变换保持Top K的最高分，我想用SVM学习。我该怎么办?
我的XML

< /操作符>

< /操作符>

< /操作符>

< /操作符>

<列出关键= " application_parameters " >
< / >列表
< /操作符>

<列出关键= " class_weights " >
< / >列表
< /操作符>
< /操作符>
< /操作符>
< /操作符>

2.如果我想创建新的权重。形成我的数据集thairath2.arff
如。(Log2(我的数据集中的每个属性+2))^2
我该怎么做呢?
写入新文件和学习SVM....
请建议一步一步来。

3.我有一个问题“内存不足”错误，进程停止。在我的数据集中。

所以如果有人有想法/建议来解决我的问题，请让我知道。
把
nivet

土地 · 2010年2月

你好,
关于你的第一个问题:
简单地用合适的SVM算子交换NaiveBayes算子，用PCA交换ChiSquaredWeighting算子。

我不太明白你第二个问题的意思。你要用这个函数来变换每个属性吗?然后我将使用FeatureIterator，它将把每个属性名称存储到一个宏中，并执行它的子操作符。将AttributeGeneration操作符放入其中，并使用生成公式中的宏来选择当前属性。

第三个问题很简单:
计算主成分分析需要建立一个协方差矩阵。对于30.000个属性，仅协方差矩阵就需要大约9 GB RAM = (30.000 x 30.000 x 8字节)。不用说，内存中一定有两个矩阵同时存在……

问候,
塞巴斯蒂安。

nivet · 2010年2月

非常感谢。

我有什么问题吗?

1.我尝试从这个教程->http://kmandcomputing.blogspot.com/search/label/datamining。
但我找不到读取输入向量-->rapidminer 4.5 +文本插件4.5
我出错了---->
操作符需要com.rapidminer.example.ExampleSet类型的一些输入，但没有提供。每个操作符定义应用该操作符所需的输入(这些输入对象显示在操作符信息屏幕(F1)中)。先前的操作符必须加载或产生所需的输入对象。您可以通过验证实验来检查正确的实验设置(通过图标或菜单项)。

---------------------------------------------

<列出关键= "文本" >

< / >列表

<列出关键= "名称空间”>
< / >列表

< /操作符>

< /操作符>

< /操作符>

< /操作符>
< /操作符>

< /操作符>

“参数”<列表键= >
<参数键= " AttributeWeightSelection。k " value = " 100300500, 1000, 1500, 2000, 2500 " / >
< / >列表

< /操作符>

< /操作符>
< /操作符>

<列出关键= " class_weights " >
< / >列表
< /操作符>

<列出关键= " application_parameters " >
< / >列表
< /操作符>

<列出关键= " class_weights " >
< / >列表
< /操作符>
< /操作符>
< /操作符>
< /操作符>
--------------------------------------------------------------------------------

nivet · 2010年2月

2.我想在这个公式中编辑数据集(.arff)中的值---->
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.6314&;代表= rep1&type = pdf

并导出新文件。csv或预处理到infoainweighting -----> feature selection ----> SVM ->accurary…

我该怎么做呢?

把
nivet

土地 · 2010年2月

你好,
我建议切换到RapidMiner 5.0。它省去了隐式的数据流，并显式地显示了数据的来源和去向，从而大大简化了流程设计。
不幸的是，我不明白，你要改变哪些值?

问候,
塞巴斯蒂安。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

问题PCA支持向量机大数据集

答案