Python脚本扩展-安装和入门

pschlunderpschlunder 员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:96RM研究
2019年1月编辑 知识库

对于那些希望使用通用Python脚本扩展的人,下面的安装和入门笔记应该有所帮助…

安装

"Execute Python"操作符通过在"Settings" -> "Preferences…"下指定路径来访问已安装的Python版本。-> "Python脚本" -> "Python可执行文件路径":

截图15 png定义使用的Python版本

例如,屏幕截图显示了使用安装在Windows中的Anaconda中的Python的典型路径规范。现在你可以在操作符中通过导入它们来访问为这个Python版本安装的库,就像你在Python中习惯做的那样。

使用

操作符中的Python代码使用4个空格作为一个缩进级别。因此,如果您收到缩进错误,请确保缩进等于所需缩进水平的4倍。例如,当我复制“rm_main”的代码时,它包含制表符和空格的混合物,以及仅由2个空格组成的缩进。一些编辑器(比如崇高例如)提供显示是否使用制表符或空格的选项。

处理完缩进错误后,确保形成一个合适的Pandas DataFrame对象。我查了“nmrglue”库和“fileio. broker”。Read_pdata”方法似乎已经返回了给定数据的字典。幸运的是,Pandas dataframe将其作为输入。因此,您可以直接从返回的对象中创建一个DataFrame。这样做还有一个好处,即从一开始就正确地命名列。

现在有了Pandas DataFrame实例,您可以在“rm_main”函数的返回语句中传递它。之后,“Execute python”运算符将DataFrame转换为示例集(用于RapidMiner管理矩阵数据)。您可以在操作符输出端口访问此示例集。返回的第一个DataFrame在最顶端的输出端口传递,依此类推。

这里有一些示例代码,你只需要调整路径到你想要读取的文件:

导入nmrglue为ng
以pd方式导入熊猫

def rm_main ():
path = "C:\\my_great_data_file.ending"
//使用nmrglue从位于path的文件中读取数据
_ = ng.file . broker .read_pdata(path)

//从给定的字典中创建pandas数据框架
df = pd.DataFrame(dic)

//检查数据帧创建是否成功
如果不是isinstance(df, pd.DataFrame):
print("转换到数据帧失败")

//发送数据帧到运营商输出端口
返回df

笔记

  • 在“执行Python”操作符中总是需要一个名为“rm_main”的函数。如果您将示例集连接到其输入端口,则需要为该函数指定相同数量的参数。对于您的情况,您不需要在输入端口提供任何东西,因此您不需要为“rm_main()”提供任何参数。
  • 使用python的"print"函数打印的所有东西都显示在RapidMiners Log中。您可以通过菜单选项“视图”->“显示面板”->“日志”来启用它。
  • RapidMiner提供了在加载属性后更改属性类型的操作符,如果您仍然需要在“Execute Python”操作符中定义这些时间,则首先将读取的数据转换为numpy数组。对于它们,您可以通过所谓的“dtype”参数指定属性类型。找一些例子在这里
  • 如果您使用的是Windows,请确保在提供路径时转义反斜杠。这意味着,您需要提供2个反斜杠,我将其添加到上面的代码示例中。

如需进一步阅读,请点击托马斯·奥特的优秀博客文章在RapidMiner中使用R和Python脚本。

谢谢,享受编程吧!

菲利普Schlunder

RapidMiner Research,多特蒙德

2017年5月

标记:
Pavithra_Rao sgenzer radema rm1971
    登录注册置评。