这里的所有功能请求都由我们的产品团队监控。
投票问题!
拥有高票数(通常≥10票)的想法在我们的路线图中被优先考虑。
注意:如果你想建议一个新的功能,请发布一个新的问题和标签为“功能请求”。谢谢你!
投票问题!
拥有高票数(通常≥10票)的想法在我们的路线图中被优先考虑。
注意:如果你想建议一个新的功能,请发布一个新的问题和标签为“功能请求”。谢谢你!
运行中的RapidMiner服务器备份
大家好,
我有一个关于备份和我有一个可操作的RapidMiner服务器的场景的问题。假设我们有一个繁忙的数据科学团队,并且有几十个项目乐鱼平台进入正在生产中运行。所有这些项目都在解决用于大型制造系统过程控制的各种预测任务。正如大型制造系统所做的那样,这是全天候运行的,以最大限度地利用束缚在机器中的资本。
文档说明:简单地切换它以避免不一致的备份。
好吧。那我也要关掉我的工厂吗?完全?虽然大多数员工可能会支持我每周休息一天,但我怀疑管理层是否会跟随我。
那么还剩下哪些策略呢?如何从外部同步文件系统和数据库?还是我错过了另一种方法?`
希望你的想法!
问候,
塞巴斯蒂安。
PS:是的,这是一个功能请求。像RM Repository这样的东西应该是事务保存的,并且具有实时备份功能。
标记:
2
评论
过去,当一切都在数据库中时,这更容易,因为数据库转储工具可以创建一致的快照。
在Linux上有LVM,在Windows上,您可以为一致的文件系统备份执行影子副本。如果您能够在完全相同的时间启动两个备份(数据库和文件系统),那么大多数情况下都没问题,因为不一致的时间窗口非常短,但不是零。
然而,你也许可以避免写作在一个维护窗口,例如2:00-2:05 AM。然后在此时间范围内启动备份。
例如,您的建模过程将在此时间之外运行。
如果您将示例集、日志和其他内容写入存储库,则可以将它们放入数据库中。
我仍然同意你的观点,这是一个功能请求。RM应该确保每个更改都尽可能是“事务性的”。在数据库中,这很容易;在文件系统中,长操作应该运行到临时文件中,然后将结果重命名为最终名称。
问候,
Balazs
关于影子副本的好观点,我已经想到了类似的事情。但老实说,我认为这有点超出了一般的数据科学家……考虑到我很少从IT那里得到数据科学团队的良好支持(相反,通常IT似乎有点怀疑失去控制),这是一个问题。乐鱼平台进入在与IT发生冲突的情况下,这对数据科学团队来说是一个非常糟糕的问题,因为IT现在有了一个杠杆:没有安全备份?乐鱼平台进入这违反了公司的原则……
我认为投入一些精力使这两种备份都是事务性的是不够的(天哪,我希望它已经是事务性的,这样停电就不会使整个存储库崩溃!)在一个真实的场景中,我们有几十个项目,每个项目都可能生成数百个模型。模型和性能向量也不能写入数据库(出于性能原因,不应该这样做)。虽然丢失模型可能不是问题(可以重新计算),但我担心由于元数据库和磁盘上的数据冲突而导致的不稳定性……
开发者有什么评论吗?如果能与客户(以及他们的IT部门)进行沟通就更好了。