历史精选赛题重新开放

历史精选赛题重新开放

763关注者14问题数
DFUser15994392853571558  有用  4
4 个回答 

【DF复活赛---经典赛题重启】,有胆就来战!

太好了,有开源的方案,新手也可以练习了
DFUser15820392284771558  1  2
2 个回答 

离散制造过程中典型工件的质量符合率预测线上成绩1-5名方案分享

为了解决离散工件质量检测问题,我们首先对赛题数据进行了深入探索分析,得到5点具有重要指导意义的结论。继续深入研究P类特征与A类特征对结果的影响,确定了特征工程的方向,采用XGBoost Regressor预测A类特征,测试集中P9空值采用LightGBM Regressor预测填充。在模型构建阶段为提升方案的稳定性,最...
小D同学7716  6  评论
5 个回答 

基于OCR的身份证要素提取线上成绩1-5名方案分享

本文针对OCR身份证要素提取任务,提出了一种基于单字检测,单字识别和信息后处理的整体解决方案。在文字检测上,本文提出了一种基于模板定位和字符级检测融合矫正的身份证OCR要素提取方法。通过版面分析与模板匹配,对身份证各字段信息进行定位提取。使用基于单字感知的检测算法,对身份证进行字符级检...
小D同学12174  3  评论
5 个回答 

基于OCR的身份证要素提取线上成绩1-5名方案分享

身份证影像文件在商业银行中被广泛应用于认证、信息采集等领域,具有极高的商业价值。但是在实际应用中存在以下两大挑战问题:1. 图像质量不佳;2. 印章水印干扰。 针对上述问题,本文结合当下流行的深度学习方法,提出了一整套端到端的解决方案。该方案有效解决了目标检测,图像倾斜校正,内部要素定...
小D同学12174  1  评论
5 个回答 

基于OCR的身份证要素提取线上成绩1-5名方案分享

本方案的亮点在于:1)结合传统图像处理方法和深度学习的身份证正反面检测算法:无需手工标注;2)结合数据增强和序列文字识别的身份证要素识别算法:保证好的泛化能力的同时不增加推理时间;借助身份证各要素关联关系的识别后处理校验算法:进一步推升算法的最终识别准确率。 基于OCR的身份证要素提...
小D同学12174  1  评论
5 个回答 

基于OCR的身份证要素提取线上成绩1-5名方案分享

我队将原本的半监督问题转化为监督问题,首先利用传统的图像处理技术对身份证进行轮廓检测,其得到的坐标作为PSENet的标注,将PSENet模型作为检测部分的主要模型,用于检测校正身份证图像框,当所有样本的身份证都归一化为固定大小后,我们利用身份证上每个要素的位置是固定的,来提取各个要素的模板框...
小D同学12174  2  评论
5 个回答 

基于OCR的身份证要素提取线上成绩1-5名方案分享

我们的系统有如下优点:识别准确率高,在测试数据上表现优异;系统低耦合,各个子模块可以独立运行,识别模块也可用于其它文本识别任务;识别速度较快,在CPU上运行识别一张身份证图片耗时约1s,能满足大部分使用要求。 基于OCR的身份证要素提取——天晨破晓队现场答辩视频:https://www.bilibili.com/...
小D同学12174  9  5
5 个回答 

互联网新闻情感分析线上成绩1-5名方案分享

本队简单尝试了传统机器学习使用tfidf特征,发现效果不佳后后续全程投入BERT系列深度学习方法(包括BERT-base [2]、BERT-wwm-ext [3]、RoBERTa-wwm-ext-large [3] 等),并尝试了多种模型扰动和集成策略。 互联网新闻情感分析——我们太难了队现场答辩视频:https://www.bilibili.com/video/BV1eA411i7...
小D同学9487  6  评论
5 个回答 

互联网新闻情感分析线上成绩1-5名方案分享

本文基于预训练语言模型,结合传统篇章级文本分类方法,提出了多种篇章级情感分析模型,包括:对文本进行多种结构化截断,结合预训练语言模型及传统label embedding方法建模label text 匹配任务,设计多种全文encoder,借助层次注意力机制,编码篇章级文本表示,以进行篇章级情感极性分析。 互联网新闻...
小D同学9487  2  评论
5 个回答 

互联网新闻情感分析线上成绩1-5名方案分享

此次方案我们在开源baseline[1]的基础上进行了简化,模型的基本结构仅有bert结构。结合开源的方案又分别进行了对抗训练,这有助于提高原本方案的鲁棒性。最后对所有训练好的模型进行融合,进一步提高了分数。 互联网新闻情感分析——深度玄学队现场答辩视频:https://www.bilibili.com/video/BV1fC4y18...
小D同学9487  1  评论
5 个回答 

互联网新闻情感分析线上成绩1-5名方案分享

本赛题数据具有文本长短不一、涵盖多领域的特点。结合数据集的这个特点,我们使用了当前自然语言处理领域基于Transformer架构的较为先进的深度学习模型对其进行训练,通过对比我们总结出各模型的优劣,并选择性能表现相对较好的模型构成模型池。最后我们提出一种基于模型池的多策略自动融合与投票方法...
小D同学9487  3  评论
5 个回答 

互联网新闻情感分析线上成绩1-5名方案分享

本文采用了RoBERTa模型,并改造了多个上层模型并通过投票融合的方式取得了较好的结果。在CCF BDCI的新闻情感分析的评测任务上,该方法在最终的B榜评测数据上,F1分值达到了0.81697。
小D同学9487  2  评论
5 个回答 

baseline分享- 离散制造过程中典型工件的质量符合率预测

一个按组输入的端对端思路 这个思路我自己分不高,可能是细节没处理好之类的,但是如果是vgg的话应该也是类似这个思路来获得大量数据。 数据导入 train_data = pd.read_csv('first_round_training_data.csv') test_data = pd.read_csv('first_round_testing_data.csv') for col in [co...
挠头的三棱镜15151  6  评论
7 个回答 

baseline分享-乘用车细分市场销量预测

35个特征lgb单模A榜0.6253,lgb和xgb融合就过63了 备注:基于鱼佬框架,再次再次感谢鱼佬团队。第一次参赛还没啥经验,不知道B榜这一操作,很遗憾没进复赛,就开源给大家了,ps,下次一定找人组队。代码有些地方写法不合理,见谅! 用聚类做特征,聚类的特征选择也要费点心思,K选取得好有用,分数提升很...
Ambition14372  24  21
28 个回答 

baseline分享- 离散制造过程中典型工件的质量符合率预测

新人单模型线上0.68+简单易懂 import pandas as pd import numpy as np import matplotlib.pyplot as plt from catboost import CatBoostClassifier from sklearn.ensemble import AdaBoostClassifier from sklearn.ensemble import GradientBoostingClassifier import gc from lightgbm import LGBMCl...
一叶abc15151  44  评论
7 个回答 

baseline分享- 离散制造过程中典型工件的质量符合率预测

感谢大家的支持,已经获得20+的有用 故增加了一组打开B类特征的方法(方法本身是否合理以及潜在的风险,大家可以在群里和评论区讨论), 在lgb和xgb 版本上可以带来0.05的提升,该baseline 线上约0.680。 lightgbm版本的baseline,分数不高,线上约0.675左右,(高分的可以看宁缺的) 但是是整个框架...
林有夕15151  72  7
14 个回答 

baseline分享-乘用车细分市场销量预测

单模0.57,祝各位好运!!! 记得点“有用”哦!!! 详见点击进链接
阿道刷刷14372  54  7
7 个回答 

baseline分享- 离散制造过程中典型工件的质量符合率预测

目前最高分的开源 在0.68的基础上把五折改成单折直接训练1200轮可以到0.69的分数 import numpy as np import pandas as pd import catboost as cbt from sklearn.metrics import accuracy_score, roc_auc_score,log_loss import gc import math import time from tqdm import tqdm import datetime fro...
缺啥秀啥15151  65  56
56 个回答 

 

这个人很懒,还没有评价自己!
0
发布
0
回答
0
提问
0
粉丝