ArchiveBox自托管网页归档完整指南:永久保存互联网内容的终极方案

____simple_html_dom__voku__html_wrapper____>

ArchiveBox自托管网页归档完整指南:永久保存互联网内容的终极方案

【免费下载链接】ArchiveBox 🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more… 【免费下载链接】ArchiveBox 项目地址: https://gitcode.com/gh_mirrors/ar/ArchiveBox

在信息爆炸的互联网时代,重要网页随时可能消失或改变。ArchiveBox作为开源自托管网页归档工具,让您能够永久保存网页内容,确保珍贵信息不会丢失。无论您是个人用户还是企业组织,ArchiveBox都能为您提供可靠、灵活的网页存档解决方案。

什么是ArchiveBox?

ArchiveBox是一个自托管应用程序,能够以多种格式保存网页内容。它旨在让您的数据立即可用,并以其他程序可直接读取的格式保存。作为输出,它保存标准的HTML、PNG、PDF、TXT、JSON、WARC、SQLite等格式,保证未来几十年都能读取。

ArchiveBox核心图标

核心优势

  • 🆓 完全免费开源:自主托管,掌控自己的数据并保护隐私
  • 🛠️ 强大的CLI工具:支持模块化依赖和多种存储方案
  • 📚 全面的文档支持:活跃开发和丰富社区生态

ArchiveBox能保存什么内容?

ArchiveBox为每个URL创建快照文件夹,并以普通文件形式保存在文件夹内(如HTML、PDF、PNG、JSON等)。

支持的内容类型

  • 🌐 任何网站:原始HTML+CSS+JS、SingleFile HTML、截图PNG、PDF、WARC、标题、文章文本、favicon、headers等
  • 🎥 社交媒体/新闻:帖子内容TXT、评论、标题、作者、图片等
  • 🎬 YouTube/SoundCloud等:MP3/MP4、字幕、元数据、缩略图等
  • 💾 Github/Gitlab等链接:GIT源代码克隆、README、图片等

快速安装指南

🐳 Docker Compose安装(推荐)

mkdir -p ~/archivebox/data && cd ~/archivebox
curl -fsSL 'https://docker-compose.archivebox.io' > docker-compose.yml
docker compose run archivebox init --setup
docker compose up

📦 Pip安装(适用于macOS/Linux)

pip3 install --upgrade archivebox yt-dlp playwright
mkdir -p ~/archivebox/data && cd ~/archivebox/data
archivebox init --setup
archivebox server 0.0.0.0:8000

核心功能详解

多格式存档支持

ArchiveBox使用行业标准工具如Chrome、wget、yt-dlp等,并将数据存储在普通文件和文件夹中。

存档格式包括

  • index.htmlindex.json:包含元数据和详情的HTML和JSON索引文件
  • singlefile.html:使用SingleFile通过无头Chrome渲染的HTML快照
  • output.pdf:使用无头Chrome打印的网站PDF
  • screenshot.png:使用无头Chrome的1440×900网站截图
  • article.html/json:使用Readability和Mercury的文章文本提取

灵活的输入方式

您可以通过多种方式向ArchiveBox提供URL:

输入源

  • 🌐 浏览器扩展:实时保存Chrome/Chromium/Firefox浏览历史或选定页面
  • 📄 文本文件导入:支持从RSS、JSON、CSV、TXT、SQL、HTML、Markdown等文件手动导入URL
  • 📚 浏览器历史记录:从手动导出的浏览器历史记录(Netscape格式)
  • 🔗 书签服务:Pocket、Pinboard、Instapaper等

ArchiveBox网站图标

智能内容提取

ArchiveBox能够检测页面中出现的任何内容并将其提取到文件夹中。它使用所有可用的方法开箱即用,但您可以根据需要禁用提取器并微调配置。

实际应用场景

📰 新闻工作者

在研究过程中进行爬取、保存引用页面、事实核查和审查

⚖️ 法律工作者

收集和保存证据、检测变更、标记和审查

🔬 研究人员

分析社交媒体趋势、获取LLM训练数据、爬取管道

👤 个人用户

保存书签、保存投资组合内容、遗产/回忆录存档

配置与定制

ArchiveBox可以通过环境变量、使用archivebox config CLI或编辑./ArchiveBox.conf进行配置。

常用配置选项

archivebox config --set TIMEOUT=120                # 在较慢网络上增加更多秒数
archivebox config --set CHECK_SSL_VALIDITY=False   # 允许保存具有错误SSL的URL
archivebox config --set SAVE_ARCHIVEDOTORG=False   # 禁用Archive.org保存

数据管理与导出

静态存档导出

您可以使用archivebox list将索引导出为静态HTML(这样您就可以在没有ArchiveBox服务器的情况下查看它)。

archivebox list --html --with-headers > index.html
archivebox list --json --with-headers > index.json

安全与隐私考量

私有内容归档

如果您要导入包含私有内容或包含不希望公开的机密令牌的URL(例如Google文档、付费内容、未列出视频等),您可能需要禁用某些提取器方法,以避免将这些内容泄露给第三方API或公众

安全配置

archivebox config --set SAVE_ARCHIVEDOTORG=False
archivebox config --set PUBLIC_INDEX=False
archivebox config --set PUBLIC_SNAPSHOTS=False

企业级应用

ArchiveBox虽然是免费自托管的,但也为NGO、政府和其他组织提供支持、安全审查和自定义集成,帮助专业运行ArchiveBox。

升级与维护

ArchiveBox设计为具有确定性升级,确保您的存档数据在版本更新过程中保持完整性和可访问性。

结语

ArchiveBox作为开源自托管网页归档工具,为您提供了完整、可靠的网页保存解决方案。无论您是希望保存个人书签、研究资料,还是需要为企业保存重要网页证据,ArchiveBox都能满足您的需求。

开始使用ArchiveBox,让您关心的互联网部分自动以耐用、易于访问的格式保存数十年!

【免费下载链接】ArchiveBox 🗃 Open source self-hosted web archiving. Takes URLs/browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more… 【免费下载链接】ArchiveBox 项目地址: https://gitcode.com/gh_mirrors/ar/ArchiveBox

© 版权声明

相关文章