色情文本分类 - 机器学习实践

最近有个小项目,做的是从用户访问过的网页内容进行色情文本过滤。在项目中,所学习到的技术为pig与scikit-learn。本文从项目背景出发,简单地介绍了如何使用scikit-learn进行分类器设计。 色情文本分类器设计,在机器学习中为一个有监督的学习问题。这类问题都可以遵循以下设计方法进行: 收集训练数据与测试数据。 对数据进行特征提取和特征变换。 保留较为有效的特征,抛弃无效或噪音特征。 选择一种分类器,进行分类器训练。 对分类器进行交叉校验(cross validation),从中得出较优的超参数。 在测试集上进行数据测试。 数据收集...


Logistic Regression

本文从kazenoyumechen.wordpress.com上迁移过来 本文是一篇未完成的博文 Logistic Regression在现实中是有效解决分类问题的分类算法之一。这个算法是处理二值分类问题的一个有效算法。二值分类问题指的是,数据集中的标签y只能取值为0或1。 按常理来说Linear Rgression也能应用到二值分类问题中,在这种情况下,当,,当, 。但是由于Linear Regression的特点,异常值的出现会严重影响其分类效果,所以Linear Regression并不太适合于用作分类问题。 现有训练集,,其中,,在Logistic...


KNN (K nearest neighbours)

本文从kazenoyumechen.wordpress.com上迁移过来 KNN是機器學習中最簡單的算法之一,它即可以用來解決回歸(regression)問題,同時也可以用來解決分類(classification)問題。 假設目前已有一定的訓練數據,訓練數據的格式是 。C表示的是分類問題中的離散取值空間。同時,對一測試數據 ,測試數據的格式爲 。 爲了對 進行分類,KNN將在訓練集中選取與 最近的k個節點。並且根據這k個節點的標記值 從而決定...