制作生词表
-
通读全书并记录生词。找到的生词记在这本书的repo下面的 newords 文件里, 每行一个,通读时朗读,加深对全书的印象;
-
排序、剃重并生成释义。保存在 exp.txt 文件中:
paste <(cat newwords|sort|uniq) <(cat newwords|sort|uniq|trans -b :zh) > exp.txt
-
修改错误。大多数错误是 translate-shell 找不到待翻译词(词组)的释义, 返回了原文,例如 noumena,是 noumenon 的复数形式;
-
排版。打开文本文件:
libreoffice exp.txt
,主菜单 Format -> Columns 中选择两列, 字体调整为 Ubuntu 13号; -
打印。生成PDF文件:主菜单 File -> Export as PDF,然后打印此文件;
合并编辑的修改
图灵社区的编辑使用MS Office Word对译稿做审批,所以我也需要用Word来接受/拒绝这些审批。
在Word里修改好的译稿对着原始的md文档,把格式标识符加上,比如标注段落的#
,
标注源代码的反引号等等,也就是把Word中的文字当纯文本对待,然后拷贝到md文档里。
OCR
Linux
试了几个OCR软件,gocr
是OCR引擎,识别出来的文字错误太多;OCRFeeder是OCR GUI,
后端可以使用gocr和tesseract。安装了ocrad,提示无法识别png文件,换成bmp还是不行。
tesseract
的识别正确率较高,但遇到页面字体有变形(比如书页的里侧)时效果会变得很差。
sudo apt install tesseract-ocr ocrfeeder
使用
命令行
tesseract -l eng att1.png stdout
图形界面
启动 OCRFeeder,在主菜单里:Tools -> OCR Engines里面点击 detect 按钮, 找到 tesseract 引擎,在 Edit -> Preferences -> Tools -> OCR Engines 里选择 tesseract.