问题PCA支持向量机大数据集

nivetnivet 成员职位:3.贡献我
2019年6月编辑 帮助
亲爱的所有人
我一直在使用Rapidminer 4.5 64位Windows Vista 64位jdk64位
内存4gb, CPU intel core2Duo 2.0 GHZ
我的Dataset有~30000个属性和~12000个实例
----------------------------------------------------------------------------------------------------
我尝试增加Rapidminer 4.5 >> edit 2文件的内存
C:\Program Files (x86)\Rapid-I\RapidMiner\scripts\ RapidMinerGUI
设置Java在这里或在环境变量中使用的最大内存量
# MAX_JAVA_MEMORY = 4000
if [-z "${MAX_JAVA_MEMORY}"];然后
MAX_JAVA_MEMORY = 4000
没有定义最大Java内存,使用4000mb…

C:\Program Files (x86)\Rapid-I\RapidMiner\scripts\ RapidMinerGUI.bat
快速眼动 ##########################################
rem ###设置最大内存量###
快速眼动 ##########################################
if "%MAX_JAVA_MEMORY%"=="" set MAX_JAVA_MEMORY=4000 .


--------------------------------------------------------------------------------------------------

我有问题吗?


1.现在我想在数据上使用特征选择运算符
PCA变换保持Top K的最高分,我想用SVM学习。我该怎么办?
我的XML




< /操作符>

< /操作符>



< /操作符>


< /操作符>


<列出关键= " application_parameters " >
< / >列表
< /操作符>





<列出关键= " class_weights " >
< / >列表
< /操作符>
< /操作符>
< /操作符>
< /操作符>








2.如果我想创建新的权重。形成我的数据集thairath2.arff
如。(Log2(我的数据集中的每个属性+2))^2
我该怎么做呢?
写入新文件和学习SVM....
请建议一步一步来。

3.我有一个问题“内存不足”错误,进程停止。在我的数据集中。


所以如果有人有想法/建议来解决我的问题,请让我知道。

nivet

答案

  • 土地土地 RapidMiner认证分析师,RapidMiner认证专家,成员职位:2531年独角兽
    你好,
    关于你的第一个问题:
    简单地用合适的SVM算子交换NaiveBayes算子,用PCA交换ChiSquaredWeighting算子。

    我不太明白你第二个问题的意思。你要用这个函数来变换每个属性吗?然后我将使用FeatureIterator,它将把每个属性名称存储到一个宏中,并执行它的子操作符。将AttributeGeneration操作符放入其中,并使用生成公式中的宏来选择当前属性。

    第三个问题很简单:
    计算主成分分析需要建立一个协方差矩阵。对于30.000个属性,仅协方差矩阵就需要大约9 GB RAM = (30.000 x 30.000 x 8字节)。不用说,内存中一定有两个矩阵同时存在……

    问候,
    塞巴斯蒂安。
  • nivetnivet 成员职位:3.贡献我
    非常感谢。

    我有什么问题吗?

    1.我尝试从这个教程->http://kmandcomputing.blogspot.com/search/label/datamining。
    但我找不到读取输入向量-->rapidminer 4.5 +文本插件4.5
    我出错了---->
    操作符需要com.rapidminer.example.ExampleSet类型的一些输入,但没有提供。每个操作符定义应用该操作符所需的输入(这些输入对象显示在操作符信息屏幕(F1)中)。先前的操作符必须加载或产生所需的输入对象。您可以通过验证实验来检查正确的实验设置(通过图标或菜单项)。


    ---------------------------------------------


    <列出关键= "文本" >


    < / >列表




    <列出关键= "名称空间”>
    < / >列表

    < /操作符>


    < /操作符>

    < /操作符>

    < /操作符>
    < /操作符>



    < /操作符>

    “参数”<列表键= >
    <参数键= " AttributeWeightSelection。k " value = " 100300500, 1000, 1500, 2000, 2500 " / >
    < / >列表

    < /操作符>



    < /操作符>
    < /操作符>



    <列出关键= " class_weights " >
    < / >列表
    < /操作符>


    <列出关键= " application_parameters " >
    < / >列表
    < /操作符>






    <列出关键= " class_weights " >
    < / >列表
    < /操作符>
    < /操作符>
    < /操作符>
    < /操作符>
    --------------------------------------------------------------------------------
    图像
  • nivetnivet 成员职位:3.贡献我
    2.我想在这个公式中编辑数据集(.arff)中的值---->
    http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.59.6314&;代表= rep1&type = pdf

    并导出新文件。csv或预处理到infoainweighting -----> feature selection ----> SVM ->accurary…
    图像


    我该怎么做呢?


    nivet
  • 土地土地 RapidMiner认证分析师,RapidMiner认证专家,成员职位:2531年独角兽
    你好,
    我建议切换到RapidMiner 5.0。它省去了隐式的数据流,并显式地显示了数据的来源和去向,从而大大简化了流程设计。
    不幸的是,我不明白,你要改变哪些值?

    问候,
    塞巴斯蒂安。
登录注册置评。