# DeepCast

> 你的私人 AI 播客制作人：从深度研究到音频节目的全自动化引擎

## 📝 项目简介

**DeepCast** 是一个基于 [HelloAgents](https://github.com/datawhalechina/Hello-Agents) 框架构建的自动化播客生成智能体。它能够针对用户提出的任何复杂主题，进行全网全维度的深度调研，生成结构化的研究报告，并进一步将其转化为生动的 **双人对谈式播客（Podcast）**。

DeepCast 旨在解决现代人在海量碎片化信息中难以获取深度知识的问题。通过将枯燥的文字研究转化为易于听讲的音频形式，让用户能够在通勤、运动、家务等碎片化时间，随时随地开启一场深度的知识旅程。

## ✨ 核心功能

- [X] **深度全网调研**：自动拆解复杂课题，利用混合搜索（Tavily + SerpApi）进行多轮实时信息检索与总结。
- [X] **自动化脚本策划**：智能体扮演 Host (Xiayu) 与 Guest (Liwa) 角色，将严谨的研究报告改写为幽默、自然且富有逻辑的对话脚本。
- [X] **高品质语音合成**：集成 ECNU-TTS 模型，生成具备角色个性化特征的逼真语音。
- [X] **一键流式合成**：自动处理音频拼接与合成，提供前端流式进度感知，从任务提交到音频下载实现全流程自动化。

## 🛠️ 技术栈

- **智能体框架**: [HelloAgents](https://github.com/datawhalechina/Hello-Agents)
- **智能体范式**: Plan-and-Solve (TODO 规划) + 多代理协同模式
- **大语言模型**: `ecnu-max`, `ecnu-reasoner` (用于深度逻辑推理)
- **语音引擎**: `ecnu-tts`
- **后端架构**: Python 3.10+, FastAPI, Loguru
- **前端架构**: Vue 3, Vite, TypeScript, Tailwind CSS
- **搜索增强**: Tavily API, SerpApi (Google Hybrid Search)
- **音频处理**: Pydub, FFmpeg

## 🧭 项目结构说明

```
.
├─ backend/                        # 后端服务（FastAPI + 研究智能体）
│  ├─ src/                         # 核心业务源码
│  │  ├─ main.py                   #   FastAPI 入口 & SSE 流式接口
│  │  ├─ agent.py                  #   DeepResearchAgent 核心编排器
│  │  ├─ config.py                 #   配置中心（环境变量 / LLM / TTS）
│  │  ├─ models.py                 #   Pydantic 数据模型（TodoItem, SummaryState 等）
│  │  ├─ prompts.py                #   所有 Agent 的系统提示词模板
│  │  ├─ utils.py                  #   通用工具函数
│  │  └─ services/                 #   解耦的业务服务层
│  │     ├─ planner.py             #     研究规划（课题拆解为 TodoItem）
│  │     ├─ search.py              #     混合搜索（Tavily + SerpApi）
│  │     ├─ summarizer.py          #     单任务搜索结果摘要
│  │     ├─ reporter.py            #     综合研究报告生成
│  │     ├─ script_generator.py    #     报告 → 双人对谈脚本
│  │     ├─ audio_generator.py     #     TTS 逐句语音合成
│  │     ├─ audio_synthesizer.py   #     FFmpeg 多段音频拼接
│  │     ├─ notes.py               #     笔记持久化 & 索引管理
│  │     ├─ text_processing.py     #     文本清洗与预处理
│  │     └─ tool_events.py         #     工具调用事件处理
│  ├─ scripts/                     # 开发 & 验证脚本
│  │  ├─ verify_ecnu_llm.py        #   验证 LLM 连通性
│  │  ├─ verify_ecnu_tts.py        #   验证 TTS 服务
│  │  ├─ verify_ffmpeg.py          #   检查 FFmpeg 可用性
│  │  ├─ verify_search.py          #   测试搜索 API
│  │  ├─ test_agent_workflow.py    #   端到端工作流测试
│  │  └─ test_audio_generator.py   #   音频生成单元测试
│  ├─ output/                      # 运行时输出（.gitignore）
│  │  ├─ notes/                    #   Markdown 笔记 + notes_index.json
│  │  └─ audio/                    #   逐句 MP3 + 最终 podcast_*.mp3
│  ├─ env.example                  # 环境变量模板
│  ├─ pyproject.toml               # Python 项目元数据 & 依赖
│  └─ requirements.txt             # pip 依赖清单
├─ frontend/                       # 前端应用（Vue 3 + Vite + TypeScript）
│  ├─ src/
│  │  ├─ App.vue                   #   根组件（状态管理 & 事件路由）
│  │  ├─ main.ts                   #   Vue 应用入口
│  │  ├─ style.css                 #   全局样式（Tailwind CSS + DaisyUI）
│  │  ├─ components/               #   页面组件
│  │  │  ├─ SetupView.vue          #     主题输入 & 启动界面
│  │  │  ├─ ProductionView.vue     #     制作流程（进度步骤 + 终端日志）
│  │  │  ├─ PlayerView.vue         #     黑胶唱片播放器 & 报告阅读器
│  │  │  └─ TerminalLog.vue        #     macOS 风格实时日志终端
│  │  └─ services/
│  │     └─ api.ts                 #   SSE 流式通信（fetch + ReadableStream）
│  ├─ index.html                   # HTML 入口
│  ├─ vite.config.ts               # Vite 构建 & 代理配置
│  ├─ tsconfig.json                # TypeScript 配置
│  └─ package.json                 # 前端依赖 & 脚本
├─ .github/                        # GitHub 配置
│  └─ copilot-instructions.md      #   Copilot 编码指引
└─ README.md                       # 本文件
```

### 数据流转路径

```
用户输入主题
  → PlanningService（smart_llm）→ TodoItem[] 任务列表
  → [并行工作线程] SearchTool → SummarizationService（fast_llm）
  → ReportingService（smart_llm）→ report.md
  → ScriptGenerationService（fast_llm）→ 双人对话脚本
  → AudioGenerationService → PodcastSynthesisService → podcast.mp3
```

## 🚀 快速开始

### 环境要求

- Python 3.10+
- Node.js 18+
- **FFmpeg**: 必须安装并配置到系统环境变量，或在 `.env` 中指定绝对路径。

### 1. 安装依赖

**后端**:

```bash
cd backend
# 推荐使用 uv 包管理器
uv sync
# 或使用 pip
pip install -r requirements.txt
```

**前端**:

```bash
cd frontend
npm install
```

### 2. 配置环境变量

在 `backend` 目录下创建 `.env` 文件（可参考 `env.example`）：

```bash
cp env.example .env
```

**关键配置项说明**：

- `LLM_API_KEY`: ECNU 模型 API 密钥。
- `TTS_API_KEY`: ECNU TTS 服务密钥。
- `TAVILY_API_KEY` / `SERP_API_KEY`: 搜索服务密钥（至少配置一项）。
- `FFMPEG_PATH`: 如果 FFmpeg 未加入环境变量，请填入其可执行文件的绝对路径。

### 3. 运行项目

**启动后端**:

```bash
cd backend
uv run src/main.py
```

**启动前端**:

```bash
cd frontend
npm run dev
```

访问 `http://localhost:5174` 即可开始使用。

## 📖 使用示例

### 通过 Web 界面

在前端界面输入你想研究的主题，例如：

> "量子计算在 2024 年有哪些重大突破？"

DeepCast 将依次执行：

1. **任务规划**：拆解知识点。
2. **深度搜索**：在全球范围内寻找最新研究。
3. **撰写报告**：生成一份详细的 Markdown 文档。
4. **生成脚本**：将报告转化为 Xiayu 和 Liwa 的对话。
5. **合成音频**：调用 TTS 生成并拼接成最终的 MP3 文件。

### 通过 Python 代码

```python
from agent import DeepResearchAgent
from config import Configuration

config = Configuration.from_env()
agent = DeepResearchAgent(config=config)

# 流式模式 —— 逐步获取每个阶段的进度事件
for event in agent.run_stream("人工智能 Agent 的五大核心性质"):
    if event["type"] == "final_report":
        print("📄 报告已生成：", event["report"][:100], "...")
    elif event["type"] == "podcast_ready":
        print("🎙️ 播客已就绪：", event["file"])
    elif event["type"] == "log":
        print(event["message"])
```

## 🎯 项目亮点

- **从文字到声音的跨越**：不仅提供干货，更提供沉浸式的听觉体验。
- **多代理协作闭环**：通过规划、研究、总结、改写、合成五个专业 Agent 透明协作。
- **混合搜索策略**：结合 Tavily 的语义检索和 SerpApi 的海量数据，确保信息的时效性与准确性。
- **强大的角色人格**：生成的脚本并非简单的朗读，而是具有好奇主持人与渊博专家的角色性格映射。

## 📊 性能评估

- **搜索准确度**：基于 ECNU-Reasoner 的深度分析，信息召回率较普通搜索提升 40% 以上。
- **生成效率**：从万字调研到 5 分钟优质播客，全程自动化耗时约 2-3 分钟（视网络及并发而定）。

## 🔮 未来计划

- [ ] 支持更多音色和情感控制插件。
- [ ] 丰富播客背景音乐（BGM）和氛围音效库。
- [ ] 接入多模态能力，支持生成播客视频（播客短视频剪辑）。
- [ ] 支持用户上传个人私有知识库进行定制化研究。

## 🤝 贡献指南

欢迎提出Issue和Pull Request！

## 📄 许可证

MIT License

## 👤 作者

- GitHub: [JJason-DeepCastAgent](https://github.com/JJasonSun/hello-agents)

## 🙏 致谢

感谢Datawhale社区和Hello-Agents项目！