一个最小可用的日更阅读简报工具:
rss_digest/
├─ config/
│ ├─ sources.json
│ └─ sources_full.opml
├─ data/
│ ├─ raw/
│ ├─ extracted/
│ ├─ translated/
│ └─ digests/
├─ scripts/
│ └─ run_daily.ps1
├─ src/
│ └─ rss_digest/
│ ├─ __init__.py
│ ├─ config.py
│ ├─ db.py
│ ├─ digest.py
│ ├─ extractor.py
│ ├─ feeds.py
│ ├─ llm.py
│ └─ pipeline.py
├─ state/
├─ .env
├─ .env.example
└─ main.py
在 rss_digest/.env 里配置:
LLM_MODEL_ID=Qwen/Qwen3-235B-A22B-Instruct-2507
LLM_API_KEY=sk-xxxxx
LLM_BASE_URL=https://api.siliconflow.cn/v1
DISABLE_SYSTEM_PROXY=true
# PROXY_URL=http://127.0.0.1:7890
FETCH_FULL_TRANSLATION=false
MAX_ARTICLES_PER_RUN=12
REQUEST_TIMEOUT_SECONDS=30
说明:
LLM_* 变量名。.env 里设置 PROXY_URL 即可。FETCH_FULL_TRANSLATION=true,会额外为文章生成中文全译,成本更高。在 D:\SoftWare\pycharm\Project\regularTest 下执行:
.venv\Scripts\python.exe rss_digest\main.py
或直接运行:
powershell -ExecutionPolicy Bypass -File .\rss_digest\scripts\run_daily.ps1
rss_digest\state\articles.jsonrss_digest\data\digests\digest_YYYY-MM-DD.html下一步如果你要把质量做稳,优先补这三项:
trafilatura 做正文抽取