用 MySQL 实现简单推荐功能,核心不在于复杂算法,而在于设计清晰、可查询的关联结构。重点是把“用户行为”“物品属性”“交互关系”这三类数据组织好,再通过 JOIN、GROUP BY、ORDER BY 等基础操作快速生成推荐结果。
用户-物品交互表(行为日志)
这是推荐的基础。记录用户对物品(如商品、文章、视频)的实际动作,比如浏览、收藏、购买、评分。
表名建议:user_item_actions关键字段:
user_id、
item_id、
action_type('view'/'like'/'buy')、
created_at(带时间便于加权) 索引必须建在
(user_id, item_id)和
(item_id, user_id)上,否则关联查询会很慢 示例:查某用户最近买过的 5 个商品的同类热销品,就靠这个表反向找“共同购买”
物品标签/分类表(内容特征)
让推荐有“内容依据”,避免纯协同过滤的冷启动问题。不需要 NLP,用预设标签或一级分类即可。
可拆成两张表:items(含
item_id、
title、
category_id)和
item_tags(
item_id,
tag_id) 查“和某商品同类的、近期被多人收藏的 Top10”,只需 JOIN
items+
user_item_actions,按
category_id分组统计 标签不要过度细分——MySQL 不适合做高维向量化匹配,5~20 个常用标签足够支撑基础推荐
基于相似用户的快速推荐(简易协同过滤)
不训练模型,用 SQL 直接找出“口味相近”的用户,再取他们喜欢但当前用户还没接触过的物品。
步骤一:找出和目标用户u1有至少 2 个共同行为物品的其他用户(用自连接 + GROUP BY HAVING) 步骤二:从这些相似用户的行为中,排除
u1已有的物品,按行为次数或时间加权排序 SQL 示例片段:
SELECT t2.item_id, COUNT(*) AS score FROM user_item_actions t1 JOIN user_item_actions t2 ON t1.item_id = t2.item_id AND t1.user_id != t2.user_id WHERE t1.user_id = 123 AND t2.item_id NOT IN (SELECT item_id FROM user_item_actions WHERE user_id = 123) GROUP BY t2.item_id ORDER BY score DESC LIMIT 10;注意:大数据量时加
LIMIT控制中间结果集,避免内存溢出
轻量缓存与更新策略
MySQL 不是实时推荐引擎,但可以支撑 T+1 或小时级更新的推荐位(如“猜你喜欢”“看了又看”)。
建一张user_recommendations表,字段包括
user_id、
item_id、
score、
updated_at每天凌晨用定时任务跑一次推荐 SQL,写入该表;线上查询只读这张表,不现场计算 对新注册用户或零行为用户,直接 fallback 到热门榜(
SELECT item_id FROM user_item_actions GROUP BY item_id ORDER BY COUNT(*) DESC LIMIT 10)
