« Lua 5.2 新增的分代 GC | 返回首页 | 招聘 平台开发工程师 »

D 语言的数组和字符串

这个国庆假期,我读完了《D程序设计语言》 一书。里面读到了很多有趣的东西,挑一点写出来和大家分享一下。

字符串,数组和关联数组(hash 表)是最重要的三种数据结构,我们几乎可以利用它们模拟出任何更复杂的结构。Lua 就是这么干的,只不过 Lua 把数组和关联数组合并成一个 table 类型了。D 在语言层面对这三种数据结构支持的很好,概念定义非常清晰。这一篇只谈数组和字符串,不涉及 hash 表的部分。


数组可以看成是存放同一类型数据的连续内存。

在 C 语言中,数组和指针虽然是不同的类型,但编译器生成的代码却是相同的,可以说实质上,数组即指针。但将数组隐含有长度信息,即内存的范围。有些数组是固定大小的,在编译器就知道其范围;有些数组需要动态扩展大小,其范围是运行期确定,并可以改变的。无论如何,对数组的随机访问,缺乏边界检查的代码都隐藏着风险。

D 语言是一门期望有高安全性的同时又重视运行性能的语言。它在平衡这个问题上的解决方案很有趣。程序员可以指定一段代码是安全的,还是系统级的,还是是接口安全的。根据不同的标注来插入边界检查代码。在 debug 版中,即使是系统级代码,也会插入类似 assert 的契约检查。

由于 D 语言以 GC 为内存管理核心(且要求所有数据都是位置无关,可移动的),所以管理数组切片 Slice 就变得很简单。不同的Slice 引用同一块内存,不用担心数据生命期问题。扩展数组也可以根据需要重新分配内存,或是在原地扩展。

提到数组扩展,不得不谈一下 D 语言中结构的 postblit 。D 语言中,所有的 class 都是引用语义的,而 struct 是值语义的。C++ 中花了很多年想解决的一个性能问题就是源于 vector 扩展时,数据如何从旧的位置移动新位置的问题。在 stl 的 sgi 实现中,为 POD 结构增加的特化模板来提高复制效率;在 C++11 中又从语言层面增加了右值引用来实现移动语义,来解决反复析构构造对象带来的性能浪费。

而 D 语言中没有那些晦涩的移动构造,拷贝构造概念;它只有 postblit 。也就是数据都应该默认按位复制(blit),然后在 blit 后,再用 postblit 方法去修改新的副本。这种不动源对象,而只在副本上修改的移动钩子技术概念更简单清晰。而且编译器可以自行推导什么时候调用 postblit 才是必要的。这个技术不仅仅用来解决数组的扩展问题,也可以很好的搞定 C++ 中返回值优化问题。

对于固定大小的数组,D (2.0) 是按值类型处理的(动态数组则是引用类型),不同长度的数组是不同的类型,但它们都可以隐式转换(映射)成动态数组。比较短的固定数组做值传递的时候更方便高效,也符合其它基础类型的特征。长数组可以通过 ref 修饰按引用传递。


D 语言的有趣之处在于 string 其实就是一个不可变的动态数组,string 其实是 immutable(char) [] 的别名。它也同时支持 wstring 和 dstring 。而其它许多类 C 的语言,比如 C# java go C++ 等,string 则是一个独立的类型。

但 D 语言也为 immutable(char) [] 做了些特别的东西。首先编译器支持了很强大的字符串自面量的描述语法。不光是 C 语言已经支持的那些,还支持 2 进制表示 (0b10111 这样的),可读的 16 进制表示 ( x"7f 00 01" 这样的 ) , 所见即所得风格(取消转义)的字符串等等。

D 语言把 Unicode 作为其标准字符集,且默认选择 UTF-8/UTF-16/UTF-32 做默认编码。一个比较奇特的地方是 foreach 对 string 的迭代:

  string str = "中文";
  foreach (c; str) {
    ...
  }

如果这样处理中文字符串,这里中文被编码成 UTF-8 ,但 str 是 string 类型(而不是 wstring 或 dstring),foreach 会自动推导 c 这个变量的类型为 char ,然后按字节而不是按字逐个取出字符。

可一旦你这样写:

  string str = "中文";
  foreach (dchar c; str) {
    ...
  }

指定了 c 的类型为 dchar ,那么 foreach 就可以正确的按 UTF-8 规则分割字符,把中文按字取出来了。

由于 string 本质上是 immutable(char) [] ,一个引用类型。所以传递 string 非常廉价。immutable 变量还可以自由的跨线程共享。GC 可以保证 string 的生命期被正确的管理。

数组的 == 操作被改写过,所以可以正确的按值比较。字符串也是数组,所以 == 操作也能按字面意思正确运行。在 D 语言中,数组/字符串也可以用于 switch 语句,这非常的方便。如果真要比较两个字符串是否是同一个变量,D 语言提供了 is 比较操作来比较是否引用着同一个对象,而不像 C# 那样,你需要调用库函数 Object.ReferenceEquals(Object obj1, Object obj2) 。


ps. 尽管数组在 D 语言中足够高效,但依然提供了裸用指针的方法。只需要用 .ptr 取出数组的指针即可。但语言不再提供任何的安全性保障了。这并不推荐,而且你可以制定用 D 语言的一个子集 SafeD 做开发,这样大部分指针操作都被编译器禁止了。

Comments

其实我最喜欢D语言的地方是它的编译期可运行代码,简单直观,好写好读,功能强大,可以秒杀C++的模版和C的宏。
D语言的设计影响来自C++ Go语言的设计影响来自C 有意思~~
云大师, 发现一个很有趣的编程语言, 可以编译成生命, 可对自己订制,而不是软件哦. 详细教程: http://v.163.com/movie/2012/10/E/D/M85KCL7B8_M85MDOCED.html 用工具 从3:40秒可以他可以正确模拟dna哦 http://v.163.com/movie/2012/1/C/6/M84Q7SDHV_M84Q7UNC6.html 华盛顿等大学 发明编写人造DNA分子的编程语言,可用于诊断疾病和输送药物 加上今年的诺贝尔化学奖在于用计算机模型可以真实模拟化学反应 不知道您对这些领域什么看法?
@yue169 http://blog.codingnow.com/2011/05/bitcoin.html
终于又更新了支持支持
云风大哥 对最近火热的比特币怎么看,像你这样的geek不会放过这样的东东吧?
程序猿加油,后面世界精彩还是需要靠更多程序猿来创造。
好奇云风你那里的太阳要早点出来吗?

Post a comment

非这个主题相关的留言请到:留言本