CCF BDCI 数据科学社区-DataFountain

三等奖方案|2021 CCF BDCI 「金融仿真图数据查询与优化」赛题

今日分享：蚂蚁集团「大规模金融仿真图数据中金融交易环路查询的设计与性能优化」赛题三等奖获奖方案赛题链接：https://www.datafountain.cn/competitions/532 团队简介获奖团队：Scorpio 队长：尹文兵就职于中电鸿信信息科技有限公司。队员：丁科休就职于中电鸿信信息科技有限公司。摘要本赛...

DF运营902 有用评论收起评论

三等奖方案|2021 CCF BDCI 「金融仿真图数据查询与优化」赛题

今日分享：蚂蚁集团「大规模金融仿真图数据中金融交易环路查询的设计与性能优化」赛题三等奖获奖方案赛题链接：https://www.datafountain.cn/competitions/532 团队简介获奖团队：MoYu-Master 作者毕业于南京邮电大学信息安全专业，现工作于华为2012实验室，主要工作为深度学习框架开发，NPU适配。 ...

DF运营573 有用评论收起评论

二等奖方案|2021 CCF BDCI 「金融仿真图数据查询与优化」赛题

今日分享：蚂蚁集团「大规模金融仿真图数据中金融交易环路查询的设计与性能优化」赛题二等奖获奖方案赛题链接：https://www.datafountain.cn/competitions/532 团队简介获奖团队：Triangle 队长：张斌就职于南京财经大学，南京邮电大学2016级计算机技术硕士。获得2018年华为软件精英挑战赛季军、20...

DF运营489 有用评论收起评论

二等奖方案|2021 CCF BDCI 「金融仿真图数据查询与优化」赛题

今日分享：蚂蚁集团「大规模金融仿真图数据中金融交易环路查询的设计与性能优化」赛题二等奖获奖方案赛题链接：https://www.datafountain.cn/competitions/532 团队简介获奖团队：水箭龟团队成员一人，王洲杰，东南大学网络空间安全学院在读研究生。摘要目前图计算在金融场景的运用最为成熟，贷...

DF运营454 有用评论收起评论

一等奖方案|2021 CCF BDCI「金融仿真图数据查询与优化」赛题

今日分享：蚂蚁集团「大规模金融仿真图数据中金融交易环路查询的设计与性能优化」赛题一等奖获奖方案赛题链接：https://www.datafountain.cn/competitions/532 团队简介获奖团队：电饭煲火锅战队由吴洋、刘星晨和李琳组成。本团队取得过2018华为软件精英挑战赛二等奖、2018CCF BDCI基于GPU服务器...

DF运营400 有用评论收起评论

竞赛方案分享-数据湖流批一体性能优化-糖与堡团队

1. 赛题背景湖仓一体、流批一体已经成为大数据新一代架构范式。通过在数据湖存储上构建数仓表存储，并支持流批一体写入，能够大幅简化大数据架构、开发流程以及部署运维开销，降本增效。业内涌现出 DeltaLake、Iceberg、Hudi 等数据湖存储框架。而 LakeSoul 作为国产唯一湖仓表存储框架，在元数据扩展...

DF1570761349380626 2 评论收起评论

可以请问一下大家，处理大规模数据大家都用什么服务器呀，有便宜一些的云服务器吗~

是我的话，我会选择用液冷服务器，安全，散热性能比较好，低碳。最重要的是静音，不用太担心噪音大的问题

深度学习服务器1050 有用评论收起评论

2 个回答

CCF BDCI 2021 Baseline汇总

个贷违约预测赛题类型：结构化数据挖掘、金融风控 https://www.datafountain.cn/competitions/530 本赛题要求利用已有的与目标客群稍有差异的另一批信贷数据，辅助目标业务风控模型的创建，两者数据集之间存在大量相同的字段和极少的共同用户。此处希望大家可以利用迁移学习捕捉不同业务中用户基本...

阿水2333622 3 1 收起评论

竞赛方案分享-海口市-交通流量时空演变特征可视分析 top1我只会时空数据挖掘

前言本文主要根据CCF BDCI答辩PPT内容阐述本团队方案思路。分别主要从团队简介、问题描述、算法模型、方案价值与潜力、方案总结五个方面分享。由于我们团队第一次参加数据竞赛，经验还是非常欠缺，与各位大佬还存在差距。我们提出的方法主要是从我们专业领域出发，考虑地理多尺度效应，从数据中挖掘对...

小D同学1244 1 1 收起评论

1 个回答

CCF BDCI2019 金融信息负面及主体判定冠军方案和代码——迁移学习怎么学习队

前言本文根据在CCF BDCI答辩会议中演讲的PPT内容，给出了完整的技术方案，主要从团队介绍、赛题分析、方案设计和赛题总结四个方面阐述。本次比赛的难点在于文本数据来源多、内容格式脏、数据长、实体标注噪音大涉及情感分析和实体判别两个任务。参赛者需要判定给定金融文本是否包含金融实体的负面信息...

小D同学1373 有用评论收起评论

1 个回答

离散制造过程中典型工件的质量符合率预测线上成绩1-5名方案分享

为了解决离散工件质量检测问题，我们首先对赛题数据进行了深入探索分析，得到5点具有重要指导意义的结论。继续深入研究P类特征与A类特征对结果的影响，确定了特征工程的方向，采用XGBoost Regressor预测A类特征，测试集中P9空值采用LightGBM Regressor预测填充。在模型构建阶段为提升方案的稳定性，最...

小D同学8344 6 评论收起评论

5 个回答

基于OCR的身份证要素提取线上成绩1-5名方案分享

本文针对OCR身份证要素提取任务，提出了一种基于单字检测，单字识别和信息后处理的整体解决方案。在文字检测上，本文提出了一种基于模板定位和字符级检测融合矫正的身份证OCR要素提取方法。通过版面分析与模板匹配，对身份证各字段信息进行定位提取。使用基于单字感知的检测算法，对身份证进行字符级检...

小D同学13814 3 评论收起评论

5 个回答

基于OCR的身份证要素提取线上成绩1-5名方案分享

身份证影像文件在商业银行中被广泛应用于认证、信息采集等领域，具有极高的商业价值。但是在实际应用中存在以下两大挑战问题：1. 图像质量不佳；2. 印章水印干扰。针对上述问题，本文结合当下流行的深度学习方法，提出了一整套端到端的解决方案。该方案有效解决了目标检测，图像倾斜校正，内部要素定...

小D同学13814 1 评论收起评论

5 个回答

基于OCR的身份证要素提取线上成绩1-5名方案分享

本方案的亮点在于：1）结合传统图像处理方法和深度学习的身份证正反面检测算法：无需手工标注；2）结合数据增强和序列文字识别的身份证要素识别算法：保证好的泛化能力的同时不增加推理时间；借助身份证各要素关联关系的识别后处理校验算法：进一步推升算法的最终识别准确率。基于OCR的身份证要素提...

小D同学13814 1 评论收起评论

5 个回答

基于OCR的身份证要素提取线上成绩1-5名方案分享

我队将原本的半监督问题转化为监督问题，首先利用传统的图像处理技术对身份证进行轮廓检测，其得到的坐标作为PSENet的标注，将PSENet模型作为检测部分的主要模型，用于检测校正身份证图像框，当所有样本的身份证都归一化为固定大小后，我们利用身份证上每个要素的位置是固定的，来提取各个要素的模板框...

小D同学13814 2 评论收起评论

5 个回答

基于OCR的身份证要素提取线上成绩1-5名方案分享

我们的系统有如下优点：识别准确率高，在测试数据上表现优异；系统低耦合，各个子模块可以独立运行，识别模块也可用于其它文本识别任务；识别速度较快，在CPU上运行识别一张身份证图片耗时约1s，能满足大部分使用要求。基于OCR的身份证要素提取——天晨破晓队现场答辩视频：https://www.bilibili.com/...

小D同学13814 9 5 收起评论

5 个回答

互联网新闻情感分析线上成绩1-5名方案分享

本队简单尝试了传统机器学习使用tfidf特征，发现效果不佳后后续全程投入BERT系列深度学习方法（包括BERT-base [2]、BERT-wwm-ext [3]、RoBERTa-wwm-ext-large [3] 等），并尝试了多种模型扰动和集成策略。互联网新闻情感分析——我们太难了队现场答辩视频：https://www.bilibili.com/video/BV1eA411i7...

小D同学10379 6 评论收起评论

5 个回答

互联网新闻情感分析线上成绩1-5名方案分享

本文基于预训练语言模型，结合传统篇章级文本分类方法，提出了多种篇章级情感分析模型，包括：对文本进行多种结构化截断，结合预训练语言模型及传统label embedding方法建模label text 匹配任务，设计多种全文encoder，借助层次注意力机制，编码篇章级文本表示，以进行篇章级情感极性分析。互联网新闻...

小D同学10379 2 评论收起评论

5 个回答

互联网新闻情感分析线上成绩1-5名方案分享

此次方案我们在开源baseline[1]的基础上进行了简化，模型的基本结构仅有bert结构。结合开源的方案又分别进行了对抗训练，这有助于提高原本方案的鲁棒性。最后对所有训练好的模型进行融合，进一步提高了分数。互联网新闻情感分析——深度玄学队现场答辩视频：https://www.bilibili.com/video/BV1fC4y18...

小D同学10379 1 评论收起评论

5 个回答

互联网新闻情感分析线上成绩1-5名方案分享

本赛题数据具有文本长短不一、涵盖多领域的特点。结合数据集的这个特点，我们使用了当前自然语言处理领域基于Transformer架构的较为先进的深度学习模型对其进行训练，通过对比我们总结出各模型的优劣，并选择性能表现相对较好的模型构成模型池。最后我们提出一种基于模型池的多策略自动融合与投票方法...

小D同学10379 3 评论收起评论

5 个回答

互联网新闻情感分析线上成绩1-5名方案分享

本文采用了RoBERTa模型，并改造了多个上层模型并通过投票融合的方式取得了较好的结果。在CCF BDCI的新闻情感分析的评测任务上，该方法在最终的B榜评测数据上，F1分值达到了0.81697。

小D同学10379 2 评论收起评论

5 个回答

baseline分享- 离散制造过程中典型工件的质量符合率预测

一个按组输入的端对端思路这个思路我自己分不高，可能是细节没处理好之类的，但是如果是vgg的话应该也是类似这个思路来获得大量数据。数据导入 train_data = pd.read_csv('first_round_training_data.csv') test_data = pd.read_csv('first_round_testing_data.csv') for col in [co...

挠头的三棱镜16164 6 评论收起评论

6 个回答

baseline分享-乘用车细分市场销量预测

35个特征lgb单模A榜0.6253，lgb和xgb融合就过63了备注：基于鱼佬框架，再次再次感谢鱼佬团队。第一次参赛还没啥经验，不知道B榜这一操作，很遗憾没进复赛，就开源给大家了，ps,下次一定找人组队。代码有些地方写法不合理，见谅! 用聚类做特征，聚类的特征选择也要费点心思，K选取得好有用，分数提升很...

Ambition15389 24 18 收起评论

24 个回答

baseline分享- 离散制造过程中典型工件的质量符合率预测

新人单模型线上0.68+简单易懂 import pandas as pd import numpy as np import matplotlib.pyplot as plt from catboost import CatBoostClassifier from sklearn.ensemble import AdaBoostClassifier from sklearn.ensemble import GradientBoostingClassifier import gc from lightgbm import LGBMCl...

一叶abc16164 44 评论收起评论

6 个回答

baseline分享-乘用车细分市场销量预测

单模0.57，祝各位好运！！！记得点“有用”哦！！！详见点击进链接

阿道刷刷15389 54 6 收起评论

6 个回答

baseline分享- 离散制造过程中典型工件的质量符合率预测

目前最高分的开源在0.68的基础上把五折改成单折直接训练1200轮可以到0.69的分数 import numpy as np import pandas as pd import catboost as cbt from sklearn.metrics import accuracy_score, roc_auc_score,log_loss import gc import math import time from tqdm import tqdm import datetime fro...

缺啥秀啥16164 65 48 收起评论

48 个回答

CCF BDCI

三等奖方案|2021 CCF BDCI 「金融仿真图数据查询与优化」赛题

三等奖方案|2021 CCF BDCI 「金融仿真图数据查询与优化」赛题

二等奖方案|2021 CCF BDCI 「金融仿真图数据查询与优化」赛题

二等奖方案|2021 CCF BDCI 「金融仿真图数据查询与优化」赛题

一等奖方案|2021 CCF BDCI「金融仿真图数据查询与优化」赛题

竞赛方案分享-数据湖流批一体性能优化-糖与堡团队

可以请问一下大家，处理大规模数据大家都用什么服务器呀，有便宜一些的云服务器吗~

CCF BDCI 2021 Baseline汇总

竞赛方案分享-海口市-交通流量时空演变特征可视分析 top1我只会时空数据挖掘

CCF BDCI2019 金融信息负面及主体判定 冠军方案和代码——迁移学习怎么学习队

离散制造过程中典型工件的质量符合率预测线上成绩1-5名方案分享

基于OCR的身份证要素提取线上成绩1-5名方案分享

基于OCR的身份证要素提取线上成绩1-5名方案分享

基于OCR的身份证要素提取线上成绩1-5名方案分享

基于OCR的身份证要素提取线上成绩1-5名方案分享

基于OCR的身份证要素提取线上成绩1-5名方案分享

互联网新闻情感分析线上成绩1-5名方案分享

互联网新闻情感分析线上成绩1-5名方案分享

互联网新闻情感分析线上成绩1-5名方案分享

互联网新闻情感分析线上成绩1-5名方案分享

互联网新闻情感分析线上成绩1-5名方案分享

baseline分享- 离散制造过程中典型工件的质量符合率预测

baseline分享-乘用车细分市场销量预测

baseline分享- 离散制造过程中典型工件的质量符合率预测

baseline分享-乘用车细分市场销量预测

baseline分享- 离散制造过程中典型工件的质量符合率预测

CCF BDCI2019 金融信息负面及主体判定冠军方案和代码——迁移学习怎么学习队