Domino 环境中的字符编码

Sanmao — Sun, 21 Mar 2010 08:08:26 +0000

大概在很早之前，我就知道在域中一个中文字符占三个字节，但是不知道其中的细节。最近在处理一个关于域内容超限的问题的时候，研究了一下字符编码，终于明白其中的原因。

在 Domino 环境下开发时，我们接触的字符编码主要有三种：

UTF-16：LotusScript 内部的字符编码，中文和英文都占两字节。
LMBCS（Lotus Multibyte Character Set）：存到文档域中的值以及公式等使用，中文占三字节，英文占一字节。这是在 Unicode 标准推出之前，Lotus 为了解决多语言问题自己使用的编码方式。
操作系统的编码方式：我们的 Domino 一般都跑在 GB2312 环境下，中文占两字节，英文占一字节。

UTF-16 和 GB2312 就不多说了，网上介绍的文章非常多。这里着重说明一下 LMBCS。

LMBCS 为了解决多语言问题，将字符分成了若干个组并将其分别编号，从 0x01 到 0x1F，其中 0x01 为 Latin-1（每个文字一字节），0x13 为简体中文（每个文字两字节）。然后每个字符都以自己的组编号开头，这样就实现了在一个字符串里面包含多种语言。例如“中文Test”以如下几个字节表示：

13 d6 d0 13 ce c4 01 74 01 65 01 73 01 74

其中加粗的部分为组编号。很明显这种访问有个很大的问题：每个字符都要标识其组编号，大大的浪费了空间。所以有了改良方案：每个程序（application file）有个默认的组编号，如果一个字符的组编号和默认的相同，则可以忽略不写（我没有找到设置这个组编号的方法，测试过程中它总是 0x01）。于是在默认组编号为 0x01 的情况下，上面的内容变成了这样：

13 d6 d0 13 ce c4 74 65 73 74

这样就有了中文占三字节，英文占一字节的结论。有了上面的背景知识，我们可以得到以下结果：

Len(“中文Test”) = 6，6 个字符
Lenb(“中文Test”) = 12，在 LotusScript 中占用 6×2 个字节
Lenbp(“中文Test”) = 8，按照操作系统的字符编码，占用 2×2+4 个字节
值为”中文Test”的域大小为 10 （2×3+4）字节

顺便一提，由于 LotusScript 采用的编码与 Domino 环境中其他地方不同，所以每次读写域值、print 语句都会进行转换，所以减少这种转换可以提升性能。比如：

for i=1 to 100
    print i
next i

进行了 100 此编码转换，而

strTemp = ""
for i=1 to 100
    i = strTemp & i
next i
print strTemp

只进行了一次转换，所以性能上会有优势。

请参考：Computing Strings @Length

Linux环境下Domino的中文问题

Sanmao — Mon, 04 Jul 2005 13:07:55 +0000

现象：做字符串比较、包含相关的操作无法得到正确的结果。

解决方法：

检查当前操作系统的语言设置
- 使用locale命令来查询当前的语言环境
设置Language Pack的语言环境。
- 前面安装Domino的过程我就不说了。安装完Domino之后，还需要安装Language Pack。在LP的readme.txt文件中，注明了各种操作系统下面需要使用的语言和字符集，以Linux为例，需要设置为zh_CN.GB2312。
- 操作如下：

LANG=zh_CN.GB2312
LC_ALL=zh_CN.GB2312
export LANG
export LC_ALL

安装Language Pack
- 运行install来进行安装，在安装过程中注意选择中文。
设置notes用户的语言环境
- Domino不能用root账号来启动，必须使用notes（安装Domino时候设置的账号）来进行启动。由于我们设置了当前的语言为中文，采用GB2312的字符集。所以该notes用户的语言环境也需要设置为zh_CN.GB2312
修改profile文件
- 到domino运行账号(notes)的home目录下去（/home/notes)，然后编辑.bash_profile文件，添加如下行

LANG=zh_CN.GB2312
LC_ALL=zh_CN.GB2312
export LANG
export LC_ALL
然后重新使用该账号登录系统，启动domino即可！

charset – Sanmao的幸福(?)生活

Domino 环境中的字符编码

Linux环境下Domino的中文问题