code-server搭建指南 发表于 2022-07-10 分类于 计算机 本文字数: 1.1k 阅读时长 ≈ 2 分钟 虽然自己之前搞了一台服务器,也在服务器上部署了jupyter notebook,但是仍有两个痛点没有解决: 阅读全文 »
BERT原理总结 发表于 2022-04-08 更新于 2022-05-15 分类于 深度学习 本文字数: 3.2k 阅读时长 ≈ 5 分钟 最近在做nlp相关的任务,发现无脑上bert就能达到很好的效果了,于是就去看了原论文,写篇文章好好总结一下吧! 阅读全文 »
树模型的特征选择-Boruta 发表于 2022-03-12 更新于 2022-05-15 分类于 机器学习 本文字数: 2.3k 阅读时长 ≈ 4 分钟 对于结构化数据建模,现在主流使用的模型是都是树模型,lightgbm、xgboost等,这些模型有一个很重要的特性就是可以输出特征重要性,可以用来指导特征工程,但是却不能直接用来做特征选择,这篇文章就先主要谈谈使用特征重要性来筛选特征的缺陷,然后介绍一种基于特征重要性改进的特征选择方法——Boruta。 阅读全文 »
特征选择的基本方法总结 发表于 2022-03-12 更新于 2022-05-15 分类于 机器学习 本文字数: 1.1k 阅读时长 ≈ 2 分钟 做机器学习时往往会通过特征交叉来衍生出一系列的特征,那么如何来确保这些特征是有用的呢?太多的特征一方面会加重模型的负担,跑得很慢,另一方面无效的特征也会使得模型效果下降,因此就需要一些特征选择的方法来剔除无效的特征,这篇文章就主要总结下特征选择的几种基本思路。 阅读全文 »