D 语言的数组和字符串
这个国庆假期,我读完了《D程序设计语言》 一书。里面读到了很多有趣的东西,挑一点写出来和大家分享一下。
字符串,数组和关联数组(hash 表)是最重要的三种数据结构,我们几乎可以利用它们模拟出任何更复杂的结构。Lua 就是这么干的,只不过 Lua 把数组和关联数组合并成一个 table 类型了。D 在语言层面对这三种数据结构支持的很好,概念定义非常清晰。这一篇只谈数组和字符串,不涉及 hash 表的部分。
数组可以看成是存放同一类型数据的连续内存。
在 C 语言中,数组和指针虽然是不同的类型,但编译器生成的代码却是相同的,可以说实质上,数组即指针。但将数组隐含有长度信息,即内存的范围。有些数组是固定大小的,在编译器就知道其范围;有些数组需要动态扩展大小,其范围是运行期确定,并可以改变的。无论如何,对数组的随机访问,缺乏边界检查的代码都隐藏着风险。
D 语言是一门期望有高安全性的同时又重视运行性能的语言。它在平衡这个问题上的解决方案很有趣。程序员可以指定一段代码是安全的,还是系统级的,还是是接口安全的。根据不同的标注来插入边界检查代码。在 debug 版中,即使是系统级代码,也会插入类似 assert 的契约检查。
由于 D 语言以 GC 为内存管理核心(且要求所有数据都是位置无关,可移动的),所以管理数组切片 Slice 就变得很简单。不同的Slice 引用同一块内存,不用担心数据生命期问题。扩展数组也可以根据需要重新分配内存,或是在原地扩展。
提到数组扩展,不得不谈一下 D 语言中结构的 postblit 。D 语言中,所有的 class 都是引用语义的,而 struct 是值语义的。C++ 中花了很多年想解决的一个性能问题就是源于 vector 扩展时,数据如何从旧的位置移动新位置的问题。在 stl 的 sgi 实现中,为 POD 结构增加的特化模板来提高复制效率;在 C++11 中又从语言层面增加了右值引用来实现移动语义,来解决反复析构构造对象带来的性能浪费。
而 D 语言中没有那些晦涩的移动构造,拷贝构造概念;它只有 postblit 。也就是数据都应该默认按位复制(blit),然后在 blit 后,再用 postblit 方法去修改新的副本。这种不动源对象,而只在副本上修改的移动钩子技术概念更简单清晰。而且编译器可以自行推导什么时候调用 postblit 才是必要的。这个技术不仅仅用来解决数组的扩展问题,也可以很好的搞定 C++ 中返回值优化问题。
对于固定大小的数组,D (2.0) 是按值类型处理的(动态数组则是引用类型),不同长度的数组是不同的类型,但它们都可以隐式转换(映射)成动态数组。比较短的固定数组做值传递的时候更方便高效,也符合其它基础类型的特征。长数组可以通过 ref 修饰按引用传递。
D 语言的有趣之处在于 string 其实就是一个不可变的动态数组,string 其实是 immutable(char) [] 的别名。它也同时支持 wstring 和 dstring 。而其它许多类 C 的语言,比如 C# java go C++ 等,string 则是一个独立的类型。
但 D 语言也为 immutable(char) [] 做了些特别的东西。首先编译器支持了很强大的字符串自面量的描述语法。不光是 C 语言已经支持的那些,还支持 2 进制表示 (0b10111 这样的),可读的 16 进制表示 ( x"7f 00 01" 这样的 ) , 所见即所得风格(取消转义)的字符串等等。
D 语言把 Unicode 作为其标准字符集,且默认选择 UTF-8/UTF-16/UTF-32 做默认编码。一个比较奇特的地方是 foreach 对 string 的迭代:
string str = "中文"; foreach (c; str) { ... }
如果这样处理中文字符串,这里中文被编码成 UTF-8 ,但 str 是 string 类型(而不是 wstring 或 dstring),foreach 会自动推导 c 这个变量的类型为 char ,然后按字节而不是按字逐个取出字符。
可一旦你这样写:
string str = "中文"; foreach (dchar c; str) { ... }
指定了 c 的类型为 dchar ,那么 foreach 就可以正确的按 UTF-8 规则分割字符,把中文按字取出来了。
由于 string 本质上是 immutable(char) [] ,一个引用类型。所以传递 string 非常廉价。immutable 变量还可以自由的跨线程共享。GC 可以保证 string 的生命期被正确的管理。
数组的 == 操作被改写过,所以可以正确的按值比较。字符串也是数组,所以 == 操作也能按字面意思正确运行。在 D 语言中,数组/字符串也可以用于 switch 语句,这非常的方便。如果真要比较两个字符串是否是同一个变量,D 语言提供了 is 比较操作来比较是否引用着同一个对象,而不像 C# 那样,你需要调用库函数 Object.ReferenceEquals(Object obj1, Object obj2) 。
ps. 尽管数组在 D 语言中足够高效,但依然提供了裸用指针的方法。只需要用 .ptr 取出数组的指针即可。但语言不再提供任何的安全性保障了。这并不推荐,而且你可以制定用 D 语言的一个子集 SafeD 做开发,这样大部分指针操作都被编译器禁止了。
Comments
Posted by: andot | (8) August 5, 2014 09:33 PM
Posted by: g4mb | (7) November 12, 2013 10:50 AM
Posted by: justsee | (6) October 18, 2013 10:52 PM
Posted by: zkc | (5) October 14, 2013 05:54 PM
Posted by: 好笔头业务云笔记 | (4) October 11, 2013 10:47 AM
Posted by: yue169 | (3) October 11, 2013 10:46 AM
Posted by: 业务云笔记 | (2) October 11, 2013 10:07 AM
Posted by: 若水 | (1) October 11, 2013 06:54 AM