为什么在数据预处理时,要对长尾分布进行log化为正态分布?
对原始数据,需要做哪些可视化工作
训练集不均衡,测试集是均衡的,标签有10个左右,最多的标签数量是最少标签的400倍左右,这种情况下怎样对数据进行预处理?
怎么发现强特?
同时使用不同数据集的问题
请问提升分数的数据预处理手段有哪些?重要性排序的话数据>模型>集成是合适的么
关于收据分类的文本处理
请教大神们一个问题,关于bert这个模型对文本预处理的。
样本不平衡的处理手段,基本有哪些?
很多时序数据拿回来时都是多维的变长序列,即数据中一个样本有多个特征,而且每个数据都具有不同的长度。此时我门该如何做数据预处理,和如何改变我们的模型?