Project

General

Profile

Actions

Bug #832

closed

Encoding in which Array#pack returns when a string-related format and a byte seq format are mixed

Added by yugui (Yuki Sonoda) almost 16 years ago. Updated over 13 years ago.

Status:
Closed
ruby -v:
Backport:
[ruby-dev:37294]

Description

=begin
Yuguiです。

現在、次のようになります。
["\u3042", 1].pack("A*s!").encoding #=> #Encoding:UTF-8

しかしながら、s!が生成するのは本質的にバイナリであって、この場合
rb_enc_compatible(UTF-8, ASCII-8BIT) で全体はASCII-8BITになるべきではな
いでしょうか。

今のところは

  • s!が生成するのはエンコーディングを持たない
    => 結合相手がいればそれに従う
    => いなければASCII-8BIT
    という判断のように見えます。

しかしながら、AaMmUuxなどを除けばpackが生成するのは文字列というよりはバ
イト列です。特にプラットフォーム依存なpack formatについてはその色彩が濃
厚です。これらは積極的にASCII-8BITに傾けるべきではないでしょうか。

--
Yugui
http://yugui.jp
私は私をDumpする
=end

Actions #1

Updated by matz (Yukihiro Matsumoto) almost 16 years ago

=begin
まつもと ゆきひろです

In message "Re: [ruby-dev:37294] [BUG:trunk] Encoding in which Array#pack returns when a string-related format and a byte seq format are mixed"
on Sun, 7 Dec 2008 11:54:23 +0900, "Yugui (Yuki Sonoda)" writes:

|今のところは
|* s!が生成するのはエンコーディングを持たない
| => 結合相手がいればそれに従う
| => いなければASCII-8BIT
|という判断のように見えます。
|
|しかしながら、AaMmUuxなどを除けばpackが生成するのは文字列というよりはバ
|イト列です。特にプラットフォーム依存なpack formatについてはその色彩が濃
|厚です。これらは積極的にASCII-8BITに傾けるべきではないでしょうか。

一理あります。

ただ、「エンコーディング的に壊れた」文字列を許容するRubyとし
ては、エンコーディング情報を保存したいという気持ちもあって上
記のようになっています。

以下はとりとめのない考え。

文字列 + バイナリ + 文字列

という関係があった時、

  • 全体をASCII-8BITにしてしまうとエンコーディング文字列の情
    報は失われる

  • エンコーディングを保存すると、結果がエンコーディング的に
    壊れた文字列になる

  • 保存する場合、複数文字列のエンコーディングが矛盾していた
    場合、エラーにはできないので、ASCII-8BITにするしかなく結
    局情報が失われることは避けられない

ということになるので、ここでできるだけ保存するかできるだけ
ASCII-8BITに傾けるかは、やや難しい判断ではないかと思います。

                             まつもと ゆきひろ /:|)

=end

Actions #2

Updated by yugui (Yuki Sonoda) almost 16 years ago

  • Assignee set to matz (Yukihiro Matsumoto)
  • Priority changed from 3 to 5
  • Target version set to 1.9.1 Release Candidate

=begin

=end

Actions #3

Updated by yugui (Yuki Sonoda) almost 16 years ago

  • Due date set to 12/24/2008

=begin

=end

Actions #4

Updated by yugui (Yuki Sonoda) almost 16 years ago

  • Category set to core

=begin

=end

Actions #5

Updated by yugui (Yuki Sonoda) almost 16 years ago

=begin
applied in r21074
=end

Actions #6

Updated by yugui (Yuki Sonoda) almost 16 years ago

  • Status changed from Open to Closed

=begin

=end

Actions

Also available in: Atom PDF

Like0
Like0Like0Like0Like0Like0Like0