日常办公的时候经常会用到 PDF,很多时候需要对它进行一些处理操作。这次就来搭建一个免费开源的PDF处理项目——Stirling PDF 。一站式服务,满足你的所有PDF需求。
项目出处
官方GitHub地址:https://github.com/Stirling-Tools/Stirling-PDF
这是一个强大的本地托管的基于docker的基于web的PDF操作工具,可以让你对PDF文件进行各种操作,如拆分、合并、转换、重新组织、添加图片、旋转、压缩等等。这个本地托管的web应用程序最初是由100%的ChatGPT制作的应用程序,并已发展成为包含各种功能以满足你所有的PDF需求。
Stirling PDF不会进行任何记录或跟踪。
所有文件和PDF文件要么仅存在于客户端,仅在任务执行期间驻留在服务器内存中,要么仅暂时驻留在文件中以执行任务。用户下载的任何文件在那时都已从服务器中删除。
特点:
支持暗黑模式
支持多种语言(包括简体和繁体中文)
有自定义下载选项
并行文件处理和下载
有与外部脚本集成的API
可选的登录和身份验证支持
支持自定义应用程序名称
支持自定义口号、图标、图片,甚至自定义HTML(通过文件覆盖)
搭建方式
本次使用Docker
与 Nginx Proxy Manager
进行安装和反代。
创建安装目录
创建一下安装的目录:
sudo -i
mkdir -p /root/data/docker_data/stirling_pdf
cd /root/data/docker_data/stirling_pdf
创建并编辑 docker-compose.yml
文件
nano docker-compose.yml
填入下面的内容:
version: '3.3'
services:
stirling-pdf:
image: frooodle/s-pdf:latest
ports:
- '8080:8080'
volumes:
- ./trainingData:/usr/share/tessdata #Required for extra OCR languages
- ./extraConfigs:/configs
# - ./customFiles:/customFiles/
# - ./logs:/logs/
environment:
- DOCKER_ENABLE_SECURITY=false
- INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false
DOCKER_ENABLE_SECURITY
,这个默认就好,如果要开启用户登陆模式的话,再改成true
,具体可以参考:https://github.com/Stirling-Tools/Stirling-PDF 里的Login authentication
来设置,这边就默认false
了INSTALL_BOOK_AND_ADVANCED_HTML_OPS
也是默认即可,这个是将calibre
下载到stirling-pdf,以实现pdf到书籍和高级html转换用的,需要的可以打开
然后ctrl+x确认保存退出。
打开服务器防火墙并访问网页(非必需)
打开防火墙的端口 ,以端口8080
为例
查看端口是否被占用(以 8080
为例),输入:
lsof -i:8080 #查看 8080 端口是否被占用,如果被占用,重新自定义一个端口
如果啥也没出现,表示端口未被占用,我们可以继续下面的操作了~
如果出现:
-bash: lsof: command not found
运行:
apt install lsof #安装 lsof
如果端口没有被占用(被占用了就修改一下端口,比如改成 8081
,注意 docker 命令行里和防火墙都要改)
启动 Stirling_pdf
cd /root/data/docker_data/stirling_pdf
docker compose up -d
等待拉取好镜像,出现 done
的字样之后,
理论上我们就可以输入 http://ip:8080
访问了。
但是这边我们推荐先搞一下反向代理!
做反向代理前,你需要一个域名!
反向代理
利用 Nginx Proxy Manager
在添加反向代理之前,确保你已经完成了域名解析
注意:
Nginx Proxy Manager(以下简称 NPM)会用到
80
、443
端口,所以本机不能占用(比如原来就有 Nginx)
直接丢几张图:
注意填写对应的
域名
、IP
和端口
,按文章来的话,应该是8080
IP 填写:
如果 Nginx Proxy Manager 和 stirling pdf 在同一台服务器上,可以在终端输入:
ip addr show docker0
查看对应的 Docker 容器内部 IP。
否则直接填 stirling pdf 所在的服务器 IP 就行。
使用教程
更新 Stirling_pdf
cd /root/data/docker_data/stirling_pdf
docker-compose pull
docker-compose up -d # 请不要使用 docker-compose stop 来停止容器,因为这么做需要额外的时间等待容器停止;docker-compose up -d 直接升级容器时会自动停止并立刻重建新的容器,完全没有必要浪费那些时间。
docker image prune # prune 命令用来删除不再使用的 docker 对象。删除所有未被 tag 标记和未被容器使用的镜像
提示:
WARNING! This will remove all dangling images.
Are you sure you want to continue? [y/N]
输入Y
。
卸载 Stirling_pdf
同样进入安装页面,先停止所有容器。
cd /root/data/docker_data/stirling_pdf
docker-compose down
cd ..
rm -rf /root/data/docker_data/stirling_pdf # 完全删除
可以卸载得很干净。
常见问题及注意点
1、为什么我的下载超时了
NGINX默认具有超时值,因此如果您在NGINX后面运行Stirling-PDF,则可能需要设置超时值,例如添加配置 proxy_read_timeout 3600;
2、为什么我的应用程序正在下载 .htm文件?
这通常是由您的NGINX配置引起的问题。NGINX的默认文件上传大小为1MB,您需要在Nginx的sites-available文件中添加以下内容。
client_max_body_size SIZE;
其中"SIZE"可以是50M,例如用于50MB的文件。
示例:
评论区