0%

最近在做nlp相关的任务,发现无脑上bert就能达到很好的效果了,于是就去看了原论文,写篇文章好好总结一下吧!

阅读全文 »

对于结构化数据建模,现在主流使用的模型是都是树模型,lightgbm、xgboost等,这些模型有一个很重要的特性就是可以输出特征重要性,可以用来指导特征工程,但是却不能直接用来做特征选择,这篇文章就先主要谈谈使用特征重要性来筛选特征的缺陷,然后介绍一种基于特征重要性改进的特征选择方法——Boruta。

阅读全文 »

做机器学习时往往会通过特征交叉来衍生出一系列的特征,那么如何来确保这些特征是有用的呢?太多的特征一方面会加重模型的负担,跑得很慢,另一方面无效的特征也会使得模型效果下降,因此就需要一些特征选择的方法来剔除无效的特征,这篇文章就主要总结下特征选择的几种基本思路。

阅读全文 »