多名词文本分类任务中的标注训练案例
我的数据集中的每个案例都包含多个句子,如下所示。
标准4Writing General, Äì语言、语法和引用。句子结构和语法不够清晰和/或引用资料不完整。句子结构和语法足够,但错误会分散注意力和/或引用错误。良好的句子结构和语法,有一些小错误,不会分散读者对主要信息的注意力。非常好的句子结构和语法,正确引用所有来源的材料。excellent使用流畅的单词,便于阅读。写作和参考资料基本上没有错误。”
我想根据案件的重点来分类。我的标签是“信息素养”、“书面沟通”、“数字素养”……一共8个。
在开发培训集时,一些案例显然与一个领域有关,例如信息素养……在这些情况下,我的训练数据是这样的:
ID,文本,标签
01 "string", "Information Literacy"
然而,有些情况涉及多个标签。
我的问题是这些案例应该如何记录在训练集中?
希望大家能理解。
标记:
0
最佳答案
-
rfuentealba 主持人,RapidMiner认证分析师,会员,大学教授职位:568独角兽你好,
让我们用一个简单的例子。
标签文字天气这将是一个寒冷的冬天食物8给我一些三明治天气今天下雨食物10给我一些咖啡运动迈克尔·乔丹是有史以来最伟大的篮球运动员
这个的结果应该是:
天气,食物今天很冷,我做了咖啡和三明治
对吧?
为了解决这个问题,我训练了三个不同的模型(在你的例子中是8个)。一个可以从非天气中识别天气,另一个可以从非食物中识别食物,第三个可以从非运动中识别运动。
您可以使用Multiply、Macros和其他一些东西来训练多个模型,然后迭代地应用这些模型。
这不是最优雅的解决方案@Telcontar120还有一个。我会试着找一个例子和你们分享,好吗?
愿一切都好!
罗德里戈。
6
答案