DarkMatter in Cyberspace
  • Home
  • Categories
  • Tags
  • Archives

翻译书籍的步骤


制作生词表

  1. 通读全书并记录生词。找到的生词记在这本书的repo下面的 newords 文件里, 每行一个,通读时朗读,加深对全书的印象;

  2. 排序、剃重并生成释义。保存在 exp.txt 文件中: paste <(cat newwords|sort|uniq) <(cat newwords|sort|uniq|trans -b :zh) > exp.txt

  3. 修改错误。大多数错误是 translate-shell 找不到待翻译词(词组)的释义, 返回了原文,例如 noumena,是 noumenon 的复数形式;

  4. 排版。打开文本文件:libreoffice exp.txt,主菜单 Format -> Columns 中选择两列, 字体调整为 Ubuntu 13号;

  5. 打印。生成PDF文件:主菜单 File -> Export as PDF,然后打印此文件;

合并编辑的修改

图灵社区的编辑使用MS Office Word对译稿做审批,所以我也需要用Word来接受/拒绝这些审批。 在Word里修改好的译稿对着原始的md文档,把格式标识符加上,比如标注段落的#, 标注源代码的反引号等等,也就是把Word中的文字当纯文本对待,然后拷贝到md文档里。

OCR

Linux

试了几个OCR软件,gocr是OCR引擎,识别出来的文字错误太多;OCRFeeder是OCR GUI, 后端可以使用gocr和tesseract。安装了ocrad,提示无法识别png文件,换成bmp还是不行。

tesseract的识别正确率较高,但遇到页面字体有变形(比如书页的里侧)时效果会变得很差。

sudo apt install tesseract-ocr ocrfeeder

使用

命令行

tesseract -l eng att1.png stdout

图形界面

启动 OCRFeeder,在主菜单里:Tools -> OCR Engines里面点击 detect 按钮, 找到 tesseract 引擎,在 Edit -> Preferences -> Tools -> OCR Engines 里选择 tesseract.



Published

Oct 11, 2016

Last Updated

Oct 11, 2016

Category

Tech

Tags

  • book 2
  • translate 3
  • translation 1
  • 图灵 1

Contact

  • Powered by Pelican. Theme: Elegant by Talha Mansoor