ArchiveBox自托管网页归档完整指南:永久保存互联网内容的终极方案
____simple_html_dom__voku__html_wrapper____>
ArchiveBox自托管网页归档完整指南:永久保存互联网内容的终极方案
【免费下载链接】ArchiveBox 🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more…
项目地址: https://gitcode.com/gh_mirrors/ar/ArchiveBox
在信息爆炸的互联网时代,重要网页随时可能消失或改变。ArchiveBox作为开源自托管网页归档工具,让您能够永久保存网页内容,确保珍贵信息不会丢失。无论您是个人用户还是企业组织,ArchiveBox都能为您提供可靠、灵活的网页存档解决方案。
什么是ArchiveBox?
ArchiveBox是一个自托管应用程序,能够以多种格式保存网页内容。它旨在让您的数据立即可用,并以其他程序可直接读取的格式保存。作为输出,它保存标准的HTML、PNG、PDF、TXT、JSON、WARC、SQLite等格式,保证未来几十年都能读取。

核心优势:
- 🆓 完全免费开源:自主托管,掌控自己的数据并保护隐私
- 🛠️ 强大的CLI工具:支持模块化依赖和多种存储方案
- 📚 全面的文档支持:活跃开发和丰富社区生态
ArchiveBox能保存什么内容?
ArchiveBox为每个URL创建快照文件夹,并以普通文件形式保存在文件夹内(如HTML、PDF、PNG、JSON等)。
支持的内容类型:
- 🌐 任何网站:原始HTML+CSS+JS、SingleFile HTML、截图PNG、PDF、WARC、标题、文章文本、favicon、headers等
- 🎥 社交媒体/新闻:帖子内容TXT、评论、标题、作者、图片等
- 🎬 YouTube/SoundCloud等:MP3/MP4、字幕、元数据、缩略图等
- 💾 Github/Gitlab等链接:GIT源代码克隆、README、图片等
快速安装指南
🐳 Docker Compose安装(推荐)
mkdir -p ~/archivebox/data && cd ~/archivebox
curl -fsSL 'https://docker-compose.archivebox.io' > docker-compose.yml
docker compose run archivebox init --setup
docker compose up
📦 Pip安装(适用于macOS/Linux)
pip3 install --upgrade archivebox yt-dlp playwright
mkdir -p ~/archivebox/data && cd ~/archivebox/data
archivebox init --setup
archivebox server 0.0.0.0:8000
核心功能详解
多格式存档支持
ArchiveBox使用行业标准工具如Chrome、wget、yt-dlp等,并将数据存储在普通文件和文件夹中。
存档格式包括:
-
index.html和index.json:包含元数据和详情的HTML和JSON索引文件 -
singlefile.html:使用SingleFile通过无头Chrome渲染的HTML快照 -
output.pdf:使用无头Chrome打印的网站PDF -
screenshot.png:使用无头Chrome的1440×900网站截图 -
article.html/json:使用Readability和Mercury的文章文本提取
灵活的输入方式
您可以通过多种方式向ArchiveBox提供URL:
输入源:
- 🌐 浏览器扩展:实时保存Chrome/Chromium/Firefox浏览历史或选定页面
- 📄 文本文件导入:支持从RSS、JSON、CSV、TXT、SQL、HTML、Markdown等文件手动导入URL
- 📚 浏览器历史记录:从手动导出的浏览器历史记录(Netscape格式)
- 🔗 书签服务:Pocket、Pinboard、Instapaper等
![]()
智能内容提取
ArchiveBox能够检测页面中出现的任何内容并将其提取到文件夹中。它使用所有可用的方法开箱即用,但您可以根据需要禁用提取器并微调配置。
实际应用场景
📰 新闻工作者
在研究过程中进行爬取、保存引用页面、事实核查和审查
⚖️ 法律工作者
收集和保存证据、检测变更、标记和审查
🔬 研究人员
分析社交媒体趋势、获取LLM训练数据、爬取管道
👤 个人用户
保存书签、保存投资组合内容、遗产/回忆录存档
配置与定制
ArchiveBox可以通过环境变量、使用archivebox config CLI或编辑./ArchiveBox.conf进行配置。
常用配置选项:
archivebox config --set TIMEOUT=120 # 在较慢网络上增加更多秒数
archivebox config --set CHECK_SSL_VALIDITY=False # 允许保存具有错误SSL的URL
archivebox config --set SAVE_ARCHIVEDOTORG=False # 禁用Archive.org保存
数据管理与导出
静态存档导出
您可以使用archivebox list将索引导出为静态HTML(这样您就可以在没有ArchiveBox服务器的情况下查看它)。
archivebox list --html --with-headers > index.html
archivebox list --json --with-headers > index.json
安全与隐私考量
私有内容归档
如果您要导入包含私有内容或包含不希望公开的机密令牌的URL(例如Google文档、付费内容、未列出视频等),您可能需要禁用某些提取器方法,以避免将这些内容泄露给第三方API或公众。
安全配置:
archivebox config --set SAVE_ARCHIVEDOTORG=False
archivebox config --set PUBLIC_INDEX=False
archivebox config --set PUBLIC_SNAPSHOTS=False
企业级应用
ArchiveBox虽然是免费自托管的,但也为NGO、政府和其他组织提供支持、安全审查和自定义集成,帮助专业运行ArchiveBox。
升级与维护
ArchiveBox设计为具有确定性升级,确保您的存档数据在版本更新过程中保持完整性和可访问性。
结语
ArchiveBox作为开源自托管网页归档工具,为您提供了完整、可靠的网页保存解决方案。无论您是希望保存个人书签、研究资料,还是需要为企业保存重要网页证据,ArchiveBox都能满足您的需求。
开始使用ArchiveBox,让您关心的互联网部分自动以耐用、易于访问的格式保存数十年!
【免费下载链接】ArchiveBox 🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more…
项目地址: https://gitcode.com/gh_mirrors/ar/ArchiveBox