Lukan's Blog

code-server搭建指南

发表于 2022-07-10 分类于计算机
本文字数： 1.1k 阅读时长 ≈ 2 分钟

虽然自己之前搞了一台服务器，也在服务器上部署了jupyter notebook，但是仍有两个痛点没有解决：

阅读全文 »

Kaggle HM推荐赛获奖方案总结

发表于 2022-05-14 更新于 2022-05-15 分类于比赛
本文字数： 3.3k 阅读时长 ≈ 6 分钟

阅读全文 »

BERT原理总结

发表于 2022-04-08 更新于 2022-05-15 分类于深度学习
本文字数： 3.2k 阅读时长 ≈ 5 分钟

最近在做nlp相关的任务，发现无脑上bert就能达到很好的效果了，于是就去看了原论文，写篇文章好好总结一下吧！

阅读全文 »

树模型的特征选择-Boruta

发表于 2022-03-12 更新于 2022-05-15 分类于机器学习
本文字数： 2.3k 阅读时长 ≈ 4 分钟

对于结构化数据建模，现在主流使用的模型是都是树模型，lightgbm、xgboost等，这些模型有一个很重要的特性就是可以输出特征重要性，可以用来指导特征工程，但是却不能直接用来做特征选择，这篇文章就先主要谈谈使用特征重要性来筛选特征的缺陷，然后介绍一种基于特征重要性改进的特征选择方法——Boruta。

阅读全文 »

特征选择的基本方法总结

发表于 2022-03-12 更新于 2022-05-15 分类于机器学习
本文字数： 1.1k 阅读时长 ≈ 2 分钟

做机器学习时往往会通过特征交叉来衍生出一系列的特征，那么如何来确保这些特征是有用的呢？太多的特征一方面会加重模型的负担，跑得很慢，另一方面无效的特征也会使得模型效果下降，因此就需要一些特征选择的方法来剔除无效的特征，这篇文章就主要总结下特征选择的几种基本思路。

阅读全文 »