日文字符多字節(jié)編碼基礎(chǔ)

日文字符只能使用多字節(jié)編碼,而且,編碼規(guī)范取決于平臺和字符的使用 目的(text purpose)。跟糟糕的是,編碼規(guī)范之間還稍有差異。為了開發(fā) 出適應(yīng)日文環(huán)境的Web應(yīng)用,開發(fā)人員必須對編碼規(guī)范有個(gè)清晰的認(rèn)識,確保 使用了合適的編碼規(guī)范。

  • 存儲一個(gè)日文字符最大需要6個(gè)字節(jié)空間
  • 多數(shù)日文多字節(jié)字符是單字節(jié)字符出現(xiàn)頻率的兩倍。這些字符被稱為 "zen-kaku",在日文中代表的意思是"full width"。 其它窄一些的字符被稱作"han-kaku",意思是"half width"。 字符實(shí)際顯示的寬度,取決于顯示時(shí)使用的字體。
  • 有些字符編碼采用ISO-2022定義的轉(zhuǎn)碼序列(shift sequences) 來轉(zhuǎn)換特殊的編碼 空間(00h to 7fh)。
  • 在SMTP/NNTP協(xié)議應(yīng)用中 建議 采用ISO-2022-JP編碼,并且頭部和實(shí)體部分,應(yīng)該按照 RFC要求重新編碼。雖然這些并不是強(qiáng)制性要求,但最好還是按這個(gè)建議做,因?yàn)閹卓? 流行的客戶端不支持其他的編碼方式。
  • 手機(jī)服務(wù)頁面,例如? i-mode或者? EZweb 應(yīng)該 使用Shift_JIS編碼。
  • 從PHP 5.4.0開始,象形字符(pictogram characters )已經(jīng)可以支持像 ? i-mode 或者 ? EZweb 這樣的手機(jī)服務(wù)。