首页 | 邮件资讯 | 技术教程 | 解决方案 | 产品评测 | 邮件人才 | 邮件博客 | 邮件系统论坛 | 软件下载 | 邮件周刊 | 热点专题 | 工具
网络技术 | 操作系统 | 邮件系统 | 客户端 | 电子邮箱 | 反垃圾邮件 | 邮件安全 | 邮件营销 | 移动电邮 | 邮件软件下载 | 电子书下载

网络技术

邮件原理 | 硬件设备 | CISCO | 网络协议 | 网络管理 | 传输介质 | 线路接入 | 路由接口 | 邮件存储 | 华为3Com |
首页 > 网络技术 > 电子邮件原理及协议 > 乱码大全(3)──汉字与乱码 > 正文

乱码大全(3)──汉字与乱码

出处:BBS 水木清华站 作者:bluesea (蓝海) 时间:2006-3-2 22:21:00
 汉字乱码是一个古老的问题了。自从汉字走进计算机,关于汉字乱码的问题一天也没有消失过。有关汉字和 HTML 的问题,将在本文系列的稍后的文章中单独谈到。本文不准备重复 GB_2312-80(国标)、BIG5、GBK、HZ 的最基本的互相转换的问题,相关的内容可以在本 BBS Chinese 板询问。 这里以其他角度做一些补充。

  由于编码位置上的巧合和汉字平均出现概率上的统计,用 GB 环境看 BIG5 编码的文字,将有汉字显示成为日语的假名,这个是在 GB 环境下看到 BIG5 汉字的主要特征。上网时间长一些,就会积累一些经验,使得你能够一眼区分乱码的类型。比如下面的例子就是 BIG5:

  ¨睹??〃???bluesea?れ?地BBSΘ??? BBSい锣更?腊 ??衡诀厩秆?ㄏノ?ン??い?龟悔拜??セゅ更?れ?地 BBS  Internet?阶跋????? telnet://bbs.tsinghua.edu.cn ?WWW?拜? ?? http://bbs.tsinghua.edu.cn ?讽?兵ン场骸ì?锣更セゅ?? ぃ???す??(1) 锣更れ?地 BBS ???(2)ぃэゅ?(3) 锣更度 ??贺 BBS ??坝?┦借?呼?? ???贺Αй脓?????? セゅ┪Ы场ノ?ヴタΑ???セ???ゅ?场だ?

  常见的汉字乱码还有 HZ 编码,这是一种屏蔽最高位的汉字表示方法,它是在 GB 和 BIG5 的基础上,用 ~{ 和 ~} 括起汉字编码的部分。比如:


  很多海外中文杂志,如著名的《华夏文摘》( http://www.cnd.org )等都仍然采用 HZ 编码方法。HZ 编码用额外的控制序列来控制字形的显示,字母和数字是不被编码的,它们在 ~{ 和 ~} 标记对的外面。这种编码不符合汉字与文本字符的固定映射规律,处理起来相对麻烦。著名的汉字平台──南极星 ( NJWIN 1.6,http://www.njstar.com ) 对 HZ 提供了灵活和强大的支持。

  海峡两岸的语言经过长期的发展,实际上已经不能形成一一对应的关系,GB 和 BIG5 的转换也是如此。因此这种转换往往具有不可逆性,倒不是说一段文字不能在 GB 和 BIG5 之间互相转换,而是说一旦你转换错了,信息就不能复原。比如你拿一段本来的是 GB 的文字当作 BIG5, 然后再实施 BIG5 -> GB 的转换,就会损失信息,这时逆变换将不能完全得到原来的文字。比如 SMTH WWW 发文时,本是 GB 的,错选了 BIG5 按钮就会如此,反之也类似。

  汉字的另一个问题是所谓的"半个汉字"乱码,由于很多英文编辑软件以字符为单位来处理文本,汉字被删除一半后,剩余的部分会和相邻的汉字重新组合,使得文本面目全非。因此,除了注意在输入、删除的时候注意这种问题外,还要注意不要在英文字处理软件中轻易使用"字符替换"功能,这往往会把一个汉字的后一个字符和相邻汉字的前一个字符当成一个汉字被替换掉。这种乱码最后往往令人莫名其妙、找不到原因。

  需要说明的是,简体和繁体这两个概念和 GB、BIG5 并没有逻辑上的联系,GB 的定义是简体字,BIG5 采用的是繁体字,但是为了阅读的方便,在各自的编码中再做一个内部字形或字体的映射,就形成了所谓 GB 繁体或 BIG5 简体之类的概念,他们仅仅是一些汉字软件提供的方便功能,如南极星等。我们常见的 WWW 浏览器 Microsoft Internet Explorer 4.x 和 Netscape Navigator 4.x 都已经内置了比较完善的汉字转换功能。加装了语言包的 IE 4.0 还使得我们脱离汉字平台也可以进行中文处理,并且可以处理大字符集 GBK 。详见 Win95_win3.x 讨论区中 "让Pwin95更顺手"系列之(11)。

  在中文平台上,很多人有不同的见解。本文的主旨与此无关,仅仅是综合各个方面的因素,我个人向计算机的初学者建议选择中文 PWindows 95 OSR2 或更高的版本作为最基本的操作环境。中文之星 ( http://www.chinese-star.com 、 http://www.suntendy.com/ ) ,四通利方Richwin( http://www.srsnet.com/ ) 等由于技术和企业行为的不稳定性,不适合作为具有依附性的中文平台。但是这些软件中的局部,如新拼音输入法、支持剪辑板的码转换器等还是具有一定特色 的。如果有对这个问题感兴趣的讨论,请到 Chinese 板搜索以前的标题继续讨论。

  在 Chinese Community Information Center (CCIC),集中了一些中文处理的比较完整权威的解决方案,该网点地址是 http://www.ifcss.org/software ,其中包括了各种操作系统、各种汉字编码的处理方案和软件。

  除了常见中文平台外,通过 http://www.shareware.com、 http://www.download.com 、http://www.hotfiles.com 等共享软件网点,查询 GB、BIG5、chinese 等关键字可以获得大量的小型应用程序,包括码转换器。尽管如此,本文还要重点推荐一些用于 DOS 的命令行处理工具,具有使用方便、可以进行批处理等特点。他们是:

  c2t (将 GB 或 BIG5 转化为拼音)
  HZ (gb2hz hz2gb zw2hz) (convert gb to hz, hz to gb, zw to hz respectively)
  hc (convert between GB and BIG5)

  下载地址为:

  http://ftpsearch.ntnu.no/cgi-bin/search?query=c2t.zip
  http://ftpsearch.ntnu.no/cgi-bin/search?query=hz-20.zip
  http://ftpsearch.ntnu.no/cgi-bin/search?query=hc-30.zip

  其他软件请到 http://www.ifcss.org/ftp-pub/software/ 查找。另外,GB 和 BIG5 属于两个不同组织各自制定的标准体系,对应汉字编码的转换都是通过表格来转换的,他们之间不存在任何内在的逻辑关系或函数,试图寻找这种公式的人,请不要白费精力。

  几乎所有新生的软件在中国使用都会面临一个汉字兼容的问题,比如新生的 Java 及其开发环境、动态HTML领域等都从未幸免。 通过NT的资源存取能力可以实现英文软件的界面/资源汉化,由于 PWindows 95 对话框的缺省宋体的大小为 9 磅,而英文 Windows 95 的相应值为 MS Sans Serif 8,所以很多英文软件在 PWindows 中运行时,界面中的字残缺不全,这些也可以通过资源的重新编辑予以调整。

  但是,软件内核的汉化不是可以轻易实现的。即使是厂家做的汉化工作也有非常粗糙的痕迹。比如 P-IE 4.0 在安装繁体汉字包后,PWindows Help 就产生了内码的混乱。这就是个严重的 Bug。有时只能随意选出一个具体的条目弹出帮助窗口,再反过来调出帮助主题窗口,偶尔还可以对付使用。或者你就再运行一份 NJwin,在 Option 中选择 Standard English/Western 。其实这一招在以前讨论 OutLook Express 看 BIG5 邮件的时候就用过了,也是个乱码的问题,详 见 Win95_win3.x 讨论区精华区中的"让PWin 95更顺手(9)─南极星与OutLook Express"。
相关文章 热门文章
  • 乱码大全(24)──多国语言与字典翻译
  • 乱码大全(23)──XXEncode 和 Btoa
  • 乱码大全(22)──其它汉字乱码
  • 乱码大全(21)──高位清零、HZ、EHZ汉字(2)
  • 乱码大全(20)──高位清零、HZ、EHZ汉字(1)
  • 乱码大全(19)──日文和韩文的汉字编码(2)
  • 乱码大全(18)──日文和韩文的汉字编码(1)
  • 乱码大全(17)──Unicode(4; HTML与Unicode)
  • 乱码大全(16)──Unicode(3; UTF-8、Unicode与汉字乱码)
  • 乱码大全(15)──Unicode(2; UTF-7与汉字乱码)
  • 乱码大全(14)──Unicode(1; 简介)
  • 乱码大全(13)──BinHex
  • 中文RFC文档目录
  • 手把手教你玩转免费顶级域名
  • 浅谈Base64编码
  • 手把手教你如何免费注册国际顶级域名
  • 电子邮件原理
  • 邮件-域名-DNS相关知识
  • 全面剖析E-mail收发失败的原因(一)
  • SMTP结构及原理
  • 关于邮件系统域名(DNS)设置的小常识
  • 电子邮件的工作原理
  • 邮件原文详细介绍(一)--神奇的MIME
  • 发送邮件常见出错代码
  • 自由广告区
     
    最新软件下载
  • SharePoint Server 2010 部署文档
  • Exchange 2010 RTM升级至SP1 教程
  • Exchange 2010 OWA下RBAC实现的组功能...
  • Lync Server 2010 Standard Edition 标..
  • Lync Server 2010 Enterprise Edition...
  • Forefront Endpoint Protection 2010 ...
  • Lync Server 2010 Edge 服务器部署文档
  • 《Exchange 2003专家指南》
  • Mastering Hyper-V Deployment
  • Windows Server 2008 R2 Hyper-V
  • Microsoft Lync Server 2010 Unleashed
  • Windows Server 2008 R2 Unleashed
  • 今日邮件技术文章
  • 腾讯,在创新中演绎互联网“进化论”
  • 华科人 张小龙 (中国第二代程序员 QQ...
  • 微软推出新功能 提高Hotmail密码安全性
  • 快压技巧分享:秒传邮件超大附件
  • 不容忽视的邮件营销数据分析过程中的算..
  • 国内手机邮箱的现状与未来发展——访尚..
  • 易观数据:2011Q2中国手机邮箱市场收入..
  • 穿越时空的爱恋 QQ邮箱音视频及贺卡邮件
  • Hotmail新功能:“我的朋友可能被黑了”
  • 入侵邻居网络发骚扰邮件 美国男子被重..
  • 网易邮箱莫子睿:《非你莫属》招聘多过..
  • 中国电信推广189邮箱绿色账单
  • 最新专题
  • 鸟哥的Linux私房菜之Mail服务器
  • Exchange Server 2010技术专题
  • Windows 7 技术专题
  • Sendmail 邮件系统配置
  • 组建Exchange 2003邮件系统
  • Windows Server 2008 专题
  • ORF 反垃圾邮件系统
  • Exchange Server 2007 专题
  • ISA Server 2006 教程专题
  • Windows Vista 技术专题
  • “黑莓”(BlackBerry)专题
  • Apache James 专题
  • 分类导航
    邮件新闻资讯:
    IT业界 | 邮件服务器 | 邮件趣闻 | 移动电邮
    电子邮箱 | 反垃圾邮件|邮件客户端|网络安全
    行业数据 | 邮件人物 | 网站公告 | 行业法规
    网络技术:
    邮件原理 | 网络协议 | 网络管理 | 传输介质
    线路接入 | 路由接口 | 邮件存储 | 华为3Com
    CISCO技术 | 网络与服务器硬件
    操作系统:
    Windows 9X | Linux&Uinx | Windows NT
    Windows Vista | FreeBSD | 其它操作系统
    邮件服务器:
    程序与开发 | Exchange | Qmail | Postfix
    Sendmail | MDaemon | Domino | Foxmail
    KerioMail | JavaMail | Winwebmail |James
    Merak&VisNetic | CMailServer | WinMail
    金笛邮件系统 | 其它 |
    反垃圾邮件:
    综述| 客户端反垃圾邮件|服务器端反垃圾邮件
    邮件客户端软件:
    Outlook | Foxmail | DreamMail| KooMail
    The bat | 雷鸟 | Eudora |Becky! |Pegasus
    IncrediMail |其它
    电子邮箱: 个人邮箱 | 企业邮箱 |Gmail
    移动电子邮件:服务器 | 客户端 | 技术前沿
    邮件网络安全:
    软件漏洞 | 安全知识 | 病毒公告 |防火墙
    攻防技术 | 病毒查杀| ISA | 数字签名
    邮件营销:
    Email营销 | 网络营销 | 营销技巧 |营销案例
    邮件人才:招聘 | 职场 | 培训 | 指南 | 职场
    解决方案:
    邮件系统|反垃圾邮件 |安全 |移动电邮 |招标
    产品评测:
    邮件系统 |反垃圾邮件 |邮箱 |安全 |客户端
    广告联系 | 合作联系 | 关于我们 | 联系我们 | 繁體中文
    版权所有:邮件技术资讯网©2003-2010 www.5dmail.net, All Rights Reserved
    www.5Dmail.net Web Team   粤ICP备05009143号