后端

Tech Stacks

浏览器插件

自动添加页面

  • 可复用:教程、规范、文档、最佳实践、深度分析、长帖、论文、工具说明

  • 与当前任务强相关:你最近在做的项目/学习主题/买东西做决策

  • 高信息密度:读完能产生结论、行动项、或可引用的知识点

  • 未来仍有价值:不是只对当下新闻热度/一次性公告有意义

  • 你“已经表现出”想保存:反复回看、停留很久、复制代码/文字、滚动到底等

  • 反例(大概率不要自动加入):

  • 搜索结果页、首页/Feed、短视频流、纯导航页、登录页、支付页、广告落地页

  • 你只停留几秒就关掉的页

  • 重复内容(同一篇文章不同镜像/同一主题你已收过更权威版本)

A. 页面类型过滤

  • URL/路径命中:/search, ?q=, /login, /signup, /cart, /checkout, /account, utm_ 很多的落地页
  • word_count < 300 且不是文档/代码页 → 基本不用收
  • 可读性提取失败、正文占比很低(导航/按钮多)→ 不收
  • 同域名短时间连续访问的列表/分页(feed 翻页)→ 不收

B. 行为信号过滤(强烈推荐)

  • dwell_time < 15s 且 scroll_depth < 25% → 不收
  • 打开后立刻返回/关闭 → 不收
  • 只是在切换标签或看一下价格/地址(停留短、滚动少)→ 不收

C. 去重

  • 同 URL 已经在稍后读/知识库里 → 不收
  • 标题 + 正文相似度很高(hash / simhash)→ 不收