如何实现“猜你喜欢”功能?

Denis Huang

2015-08-26 14:25

去买以下这本书《集体智慧编程》
照着第二章“协作型过滤”的脚本程序抄一遍，非常简单, 包你会。
当然实现容易，优化难，有问题可以联系我。

前言

第1章　集体智慧导言

什么是集体智慧

什么是机器学习

机器学习的局限

真实生活中的例子

学习型算法的其他用途

#-----------------

第2章　提供推荐

协作型过滤

搜集偏好

寻找相近的用户

推荐物品

匹配商品

构建一个基于del.icio.us的链接推荐系统

基于物品的过滤

使用MovieLens数据集

基于用户进行过滤还是基于物品进行过滤

练习

#-----------------

第3章　发现群组

监督学习和无监督学习

单词向量

分级聚类

绘制树状图

列聚类

K-均值聚类

针对偏好的聚类

以二维形式展现数据

有关聚类的其他事宜

练习

第4章　搜索与排名

搜索引擎的组成

一个简单的爬虫程序

建立索引

查询

基于内容的排名

利用外部回指链接

从点击行为中学习

练习

第5章　优化

组团旅游

描述题解

成本函数

随机搜索

爬山法

模拟退火算法

遗传算法

真实的航班搜索

涉及偏好的优化

网络可视化

其他可能的应用场合

练习

第6章　文档过滤

过滤垃圾信息

文档和单词

对分类器进行训练

计算概率

朴素分类器

费舍尔方法

将经过训练的分类器持久化

过滤博客订阅源

对特征检测的改进

使用Akismet

替代方法

练习

第7章　决策树建模

预测注册用户

引入决策树

对树进行训练

选择最合适的拆分方案

以递归方式构造树

决策树的显示

对新的观测数据进行分类

决策树的剪枝

处理缺失数据

处理数值型结果

对住房价格进行建模

对“热度”评价进行建模

什么时候使用决策树

练习

第8章　构建价格模型

构造一个样本数据集

k-最近邻算法

为近邻分配权重

交叉验证

不同类型的变量

对缩放结果进行优化

不对称分布

使用真实数据——eBay API

何时使用k-最近邻算法

练习

第9章　高阶分类：核方法与SVM

婚介数据集

数据中的难点

基本的线性分类

分类特征

对数据进行缩放处理

理解核方法

支持向量机

使用LIBSVM

基于Facebook的匹配

练习

第10章　寻找独立特征

搜集一组新闻

先前的方法

非负矩阵因式分解

结果呈现

利用股票市场的数据

练习

第11章　智能进化

什么是遗传编程

将程序以树形方式表示

构造初始种群

测试题解

对程序进行变异

交叉

构筑环境

一个简单的游戏

更多可能性

练习

第12章　算法总结

贝叶斯分类器

决策树分类器

神经网络

支持向量机

k-最近邻

聚类

多维缩放

非负矩阵因式分解

优化

附录A：第三方函数库

附录B：数学公式

索引

Comments