• 企业400电话
  • 微网小程序
  • AI电话机器人
  • 电商代运营
  • 全 部 栏 目

    企业400电话 网络优化推广 AI电话机器人 呼叫中心 网站建设 商标✡知产 微网小程序 电商运营 彩铃•短信 增值拓展业务
    CentOS下使用LibreOffice实现文档格式的转换方式

    项目需求,对上传的文档进行一些预处理,如果用户上传了doc格式的文档,需要将其处理为docx或者pdf格式,以便后续的流程对文档内容进行提取。

    先是试了一下phpoffice/phpword这个包,发现其对doc的转换很不理想,这个包更适合用来根据内容生成文档,而不是转换文档,不是太适合我这种需求。

    然后发现了LibreOffice这个开源工具,经过使用,效果很好,分享一下。

    服务器是CentOS7,直接使用yum安装LibreOffice,大概需要600MB+ 的磁盘空间:

    # 装之前可以先删除一下,防止之前装过
    yum remove libreoffice-*
    yum install libreoffice

    等待安装完成后,确认一下版本啥的,虽然官方已经到6.1版本了,yum里面还是5.3.6的包,不过用起来并没有什么毛病,在这里我还是建议大家使用各自的Linux系统的包管理工具来安装,这样可以省去很多麻烦的。

    [root@localhost /]# soffice --version
    LibreOffice 5.3.6.1 30(Build:1)

    不会用的话可以使用soffice --help看一下帮助,非常多的参数和使用案例,转换格式就很简单:

    soffice --headless --convert-to docx /opt/upload/source/123.doc --outdir /opt/upload/source

    以上的命令就是将/opt/upload/source/123.doc文件转换成docx格式,输出到/opt/upload/source文件夹里。

    默认情况下:

    1. 会使用源文件名+新的扩展名保存输出文件;
    2. 会覆盖outdir里已经有的同名文件;

    转换成功会输出类似这样的:

    convert /opt/upload/source/123.doc -> /opt/upload/source/123.docx using filter : MS Word 2007 XML
    Overwriting: /opt/upload/source/123.docx

    LibreOffice会根据文件格式自动匹配格式过滤器(filter),至于它支持哪些格式,可以参考一下官网。

    总结

    以上所述是小编给大家介绍的CentOS下使用LibreOffice实现文档格式的转换方式,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!
    如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

    上一篇:浅析Linux中使用nohup及screen运行后台任务的示例和区别
    下一篇:Docker容器磁盘占满的一些情况汇总
  • 相关文章
  • 

    © 2016-2020 巨人网络通讯 版权所有

    《增值电信业务经营许可证》 苏ICP备15040257号-8

    CentOS下使用LibreOffice实现文档格式的转换方式 CentOS,下,使用,LibreOffice,