首页 | 邮件资讯 | 技术教程 | 解决方案 | 产品评测 | 邮件人才 | 邮件博客 | 邮件系统论坛 | 软件下载 | 邮件周刊 | 热点专题 | 工具
网络技术 | 操作系统 | 邮件系统 | 客户端 | 电子邮箱 | 反垃圾邮件 | 邮件安全 | 邮件营销 | 移动电邮 | 邮件软件下载 | 电子书下载

网络技术

邮件原理 | 硬件设备 | CISCO | 网络协议 | 网络管理 | 传输介质 | 线路接入 | 路由接口 | 邮件存储 | 华为3Com |
首页 > 网络技术 > 电子邮件原理及协议 > 乱码大全(17)──Unicode(4; HTML与Unicode) > 正文

乱码大全(17)──Unicode(4; HTML与Unicode)

出处:BBS 水木清华站 作者:bluesea 时间:2006-3-2 22:31:00
 在 HTML 中,语言的国际交换也面临很多新的问题。可参见RFC2070,标题: Internationalization of the Hypertext Markup Language。本文涉及的问题只能说和 Unicode 沾边,主要为澄清一些通常我们容易混淆的概念。

  为了信息的交换,首先必须统一信息的表示。因为高于 127 的那些字符在 ANSI 或 ISO Latin-1 (8859-1) 中可能表示一些欧洲字母,而在一些双字节编码中又可能和相邻的字符一起用于表示汉字或其他符号,这也就引起了歧义。首先被确定下来的就是扩展字符在 HTML 文本中的表示方法。

  第一种方法是使用:“Ampersand, Crosshatch, ISO decimal code, Semicolon (与号、井号、数字和分号)”序列,例如带重音符号的字母 a,其编码是十进制 224,这样在 HTML 中表示为à

  第二种方法是使用:“Ampersand, Mixed-case name, Semicolon(与号、命名和分号)”序列,例如带重音符号的字母 a ("a" with grave accent),可以在 HTML 中表示为 à 有关这些字符的命名列表,参见 RFC2070。

  我们搞清楚了欧洲字符在 HTML 中的表示,就很自然地回到 HTML 中的著名的汉字乱码问题:当 charset=iso-8859-1 时,汉字在 Netscape 和中文 IE 中的显示不同,中文 IE 显示为乱码。很多人指出 Netscape 使用的是 Unicode,那么到底是不是呢,我们来看这个例子:

  我们首先看汉字“啊”,区位码1601;GB编码 0xa1b0;即:161,176。在字符集中,°是单位“度”(小圆圈)的符号,¡是倒写的叹号。我们编写下面的 HTML 文本。

<HTML>
<BODY>
&deg;&iexcl;&#176;&#161; 啊
</BODY>
</HTML>

  在中文 IE4.0 中,我们看到的是两个小圆圈、两个倒写的叹号和一个“啊”字, 而在PWidnows 95 环境中 Netscape 显示的是三个“啊”字。 我们用 Netscape Composer 编写网页,选择 iso-8859-1,“啊”字将被编码为 °¡ 可见这样出现的汉字,并不是 Unicode,而仅仅是把一个汉字简单地分成了两个欧洲字符来表示。在这个情况下,Netscape 分不清汉字和欧洲符号。

  Netscape Composer 支持用 Unicode 转换码来制作网页。我们选择字符为 UTF-8 并在 Composer 中输入一个“啊”字。结果在 HTML 中出现的是“掳隆”,一个汉字在 UTF-8 中不可能占据 4 个字节。我们对生成的 HTML 文件用 Netscape Navigator 显示,结果全是“啊”,而用 IE 4.0 显示的是一个小圆圈和一个倒写的叹号。可见 Netscape 的显示结果有问题。这里特意手工编写了一个的 UTF-8 转换码的 HTML:

<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
</HEAD>
<BODY>
UTF-8姹夊瓧娴嬭瘯 (Hex: E6 B1 89 E5 AD 97 E6 B5 8B E8 AF 95)
</BODY>
</HTML>

  并且我们用 IE4.0 顺利地看到了“UTF-8汉字测试”这几个字。遗憾的是不论你选择什么字体,而 PWindows 95 下的 Netscape 4.05 总是显示一些小方框和“UTF-8”。直到我们启动 NJWIN 选择“Option/Standard English/Western” 才看到正确的汉字。这实在令人失望。

  因此,在文字处理方面有缺陷的是 Netscape 而不是 IE。另外,互联网一些上关于 HTML 国际化方面的资料中也有关于浏览器对 Unicode 等国际化问题的评测,其结论也是一致的。如:Notes on Internationalization ( http://ppewww.ph.gla.ac.uk/~flavell/charset/internat.html ) 、HTML Internationalization: Browser tests of 8-bit character codes (http://ppewww.ph.gla.ac.uk/~flavell/charset/i18n-browser-tests.html) 等。文中通过 koi8-r 和 Greek 等 charset 对 Tango (2.7.1)、Lynx 2.6/2.7、 IE 3.01 欧洲版、IE 3.03、IE 4.0、NS Nav 3.03、NS C 4.04 做了对比,只有 MSIE 通过了全部测试。

  虽然我们指定了 gb2312 或 gb_2312-80 的时候,MS IE 和 NS Nav 对汉字的解释结果是类似的,但是,Netscape 对欧洲字符的解释却是混乱的,大部分字符被简单地解释成为问号,这和“Notes on Internationalization ”文中指出的问题是一样的。把欧洲字符解释成汉字,仅仅是一种巧合,这是操作系统或汉字平台在字符显示上的作用,尽管 Netscape 在内部用了很多技巧来实现多语种的实现,但是它的实现是不规范的,带来的问题比它表面上的好处要严重。

  另外,通过我们前面的分析可以看到,我们谈论的 HTML 中的汉字代码与 Unicode 的关系是 GB或BIG5 与 Unicode 转换码的关系,而不是 Unicode 汉字编码。

  一个好的中文网点,应采用规范的 (指定gb_2312-80或gb2312,并保证汉字在 HTML 源码中是汉字,而不是与号分号序列表示)方法,才能保证更多的人能够阅读你的网页。关于这方面的内容参见“乱码大全”(9)(10)中的详细叙述。
相关文章 热门文章
  • 乱码大全(24)──多国语言与字典翻译
  • 乱码大全(23)──XXEncode 和 Btoa
  • 乱码大全(22)──其它汉字乱码
  • 乱码大全(21)──高位清零、HZ、EHZ汉字(2)
  • 乱码大全(20)──高位清零、HZ、EHZ汉字(1)
  • 乱码大全(19)──日文和韩文的汉字编码(2)
  • 乱码大全(18)──日文和韩文的汉字编码(1)
  • 乱码大全(16)──Unicode(3; UTF-8、Unicode与汉字乱码)
  • 乱码大全(15)──Unicode(2; UTF-7与汉字乱码)
  • 乱码大全(14)──Unicode(1; 简介)
  • 乱码大全(13)──BinHex
  • 乱码大全(12)──数据加密
  • 中文RFC文档目录
  • 手把手教你玩转免费顶级域名
  • 浅谈Base64编码
  • 手把手教你如何免费注册国际顶级域名
  • 电子邮件原理
  • 邮件-域名-DNS相关知识
  • 全面剖析E-mail收发失败的原因(一)
  • SMTP结构及原理
  • 关于邮件系统域名(DNS)设置的小常识
  • 电子邮件的工作原理
  • 邮件原文详细介绍(一)--神奇的MIME
  • 发送邮件常见出错代码
  • 自由广告区
     
    最新软件下载
  • SharePoint Server 2010 部署文档
  • Exchange 2010 RTM升级至SP1 教程
  • Exchange 2010 OWA下RBAC实现的组功能...
  • Lync Server 2010 Standard Edition 标..
  • Lync Server 2010 Enterprise Edition...
  • Forefront Endpoint Protection 2010 ...
  • Lync Server 2010 Edge 服务器部署文档
  • 《Exchange 2003专家指南》
  • Mastering Hyper-V Deployment
  • Windows Server 2008 R2 Hyper-V
  • Microsoft Lync Server 2010 Unleashed
  • Windows Server 2008 R2 Unleashed
  • 今日邮件技术文章
  • 腾讯,在创新中演绎互联网“进化论”
  • 华科人 张小龙 (中国第二代程序员 QQ...
  • 微软推出新功能 提高Hotmail密码安全性
  • 快压技巧分享:秒传邮件超大附件
  • 不容忽视的邮件营销数据分析过程中的算..
  • 国内手机邮箱的现状与未来发展——访尚..
  • 易观数据:2011Q2中国手机邮箱市场收入..
  • 穿越时空的爱恋 QQ邮箱音视频及贺卡邮件
  • Hotmail新功能:“我的朋友可能被黑了”
  • 入侵邻居网络发骚扰邮件 美国男子被重..
  • 网易邮箱莫子睿:《非你莫属》招聘多过..
  • 中国电信推广189邮箱绿色账单
  • 最新专题
  • 鸟哥的Linux私房菜之Mail服务器
  • Exchange Server 2010技术专题
  • Windows 7 技术专题
  • Sendmail 邮件系统配置
  • 组建Exchange 2003邮件系统
  • Windows Server 2008 专题
  • ORF 反垃圾邮件系统
  • Exchange Server 2007 专题
  • ISA Server 2006 教程专题
  • Windows Vista 技术专题
  • “黑莓”(BlackBerry)专题
  • Apache James 专题
  • 分类导航
    邮件新闻资讯:
    IT业界 | 邮件服务器 | 邮件趣闻 | 移动电邮
    电子邮箱 | 反垃圾邮件|邮件客户端|网络安全
    行业数据 | 邮件人物 | 网站公告 | 行业法规
    网络技术:
    邮件原理 | 网络协议 | 网络管理 | 传输介质
    线路接入 | 路由接口 | 邮件存储 | 华为3Com
    CISCO技术 | 网络与服务器硬件
    操作系统:
    Windows 9X | Linux&Uinx | Windows NT
    Windows Vista | FreeBSD | 其它操作系统
    邮件服务器:
    程序与开发 | Exchange | Qmail | Postfix
    Sendmail | MDaemon | Domino | Foxmail
    KerioMail | JavaMail | Winwebmail |James
    Merak&VisNetic | CMailServer | WinMail
    金笛邮件系统 | 其它 |
    反垃圾邮件:
    综述| 客户端反垃圾邮件|服务器端反垃圾邮件
    邮件客户端软件:
    Outlook | Foxmail | DreamMail| KooMail
    The bat | 雷鸟 | Eudora |Becky! |Pegasus
    IncrediMail |其它
    电子邮箱: 个人邮箱 | 企业邮箱 |Gmail
    移动电子邮件:服务器 | 客户端 | 技术前沿
    邮件网络安全:
    软件漏洞 | 安全知识 | 病毒公告 |防火墙
    攻防技术 | 病毒查杀| ISA | 数字签名
    邮件营销:
    Email营销 | 网络营销 | 营销技巧 |营销案例
    邮件人才:招聘 | 职场 | 培训 | 指南 | 职场
    解决方案:
    邮件系统|反垃圾邮件 |安全 |移动电邮 |招标
    产品评测:
    邮件系统 |反垃圾邮件 |邮箱 |安全 |客户端
    广告联系 | 合作联系 | 关于我们 | 联系我们 | 繁體中文
    版权所有:邮件技术资讯网©2003-2010 www.5dmail.net, All Rights Reserved
    www.5Dmail.net Web Team   粤ICP备05009143号