为什么在数据预处理时,要对长尾分布进行log化为正态分布?
对原始数据,需要做哪些可视化工作
比赛数据是不能做任何预处理吗?
在数据挖掘中,特征工程的思路怎么获得呢?特别是对于一些脱敏的数据,该怎么构建思路?
训练集不均衡,测试集是均衡的,标签有10个左右,最多的标签数量是最少标签的400倍左右,这种情况下怎样对数据进行预处理?
怎么发现强特?
同时使用不同数据集的问题
数据小白怎么学好数据挖掘,不同时期有什么计划
请问提升分数的数据预处理手段有哪些?重要性排序的话数据>模型>集成是合适的么
关于收据分类的文本处理