Lua性能优化技巧（四）：关于字符串

(编辑：jimmy 日期: 2024/11/14 浏览：3 次 )

与表类似，了解Lua如何实现字符串可以让你更高效地使用它。

Lua实现字符串的方式与多数其他脚本语言所采用的两种主要方式都不相同。首先，Lua中的所有字符串都是内部化[1]的，这意味着Lua维护着任何字符串的一个单一拷贝。当一个新字符串出现时，Lua检查是否有现成的拷贝，如果有的话，重用之。内部化使得诸如字符串对比和索引表之类的操作非常快速，但是会降低创建字符串的速度。

第二，Lua中的变量从不存储字符串，只是引用它们。这种实现方式可以加快很多字符串操作，例如在Perl中，当你写类似于$x=$y的代码、$y是一个字符串时，赋值操作会将字符串的内容从$y的缓冲区复制到$x的缓冲区。如果这个字符串很长，这个操作的开销就很大。而在Lua中，这个赋值仅仅是一次指针的复制。

然而，这种引用实现会降低特定方式的字符串连接的速度。在Perl中，操作$s = $s . "x"和$s .= "x"区别非常大，对于前者，你获得了$s的一个拷贝，并且追加"x"到它的尾部；而对于后者，"x"只是简单地被追加到$s所维护的内部缓冲区的尾部。因此，后者无关于字符串的长度（假设缓冲区足够放下追加的文本）。如果把这两句代码放进循环里，它们的区别就是线性和二次算法的区别。例如，下述循环需要大约五分钟来读取一个5MB的文件：
复制代码代码如下:
$x = "";
while (<>)
{
$x = $x . $_;
}

如果我们把
复制代码代码如下:
$x = $x . $_

改为
复制代码代码如下:
$x .= $_

耗时将会降低为0.1秒！

Lua没有提供第二种，也就是更快速的方式，因为它的变量没有内部缓冲区。因此，我们需要一个显式的缓冲区：一个包含字符串片段的表来完成这项工作。下面的循环读取相同的5MB的文件，需要0.28秒，虽然没有Perl那么快，也还算不错：
复制代码代码如下:
local t = {}
for line in io.lines() do
t[#t + 1] = line
end
s = table.concat(t, "\n")

[1] 内部化，原文internalize

上一篇：Lua性能优化技巧（五）：削减、重用和回收
下一篇：Lua性能优化技巧（三）：关于表