# 变量、作用域和内存问题

# 检测类型

typeof 操作符是确定一个变量是字符串、数值、布尔值,还是 undefined 的最佳工具;这里主要注意的是 typeof 可以检查是不是函数类型。如果是函数,返回 'function';如果变量是一个对象或者 null,则 typeof 操作符会返回 'object':

let a = function() {}
typeof a // function
const n = null
typeof n // object
const o = new Object()
typeof o // object

检测变量是给定引用类型的实例,可以使用 instanceof 操作符,其语法如下:

result = variable instanceof constructor

例子:

person instanceof Object // 变量 person 是 Object 实例吗?
let a = function() {}
a instanceof Object // true

这里需要注意的是,所有引用类型的值都是 Object 的实例。因此,在检测一个引用类型值和 Object 构造函数时,instanceof 操作符始终会返回 true。当然,如果使用 instanceof 操作符检测基本类型的值,就会返回 false,因为基本类型不是对象。

# 执行环境以及作用域

  • 执行环境定义了变量或函数有权访问的其他数据,决定了它们各自的行为。

  • 每个执行环境都有一个与之关联的变量对象(variable object),环境中定义的所有变量和函数都保存在这个对象中。(虽然我们编写的代码无法访问这个对象,但解析器在处理数据时会在后台使用它。)

  • 根据 ECMAScript 实现所在的宿主环境不同,表示执行环境的对象也不一样。

  • 全局执行环境是最外围的一个执行环境。在 Web 浏览器中,全局执行环境被认为是 window 对象,因此所有全局变量和函数都在window对象上,所有全局变量和函数都是作为 window 对象的属性和方法创建的。

  • 某个执行环境中的所有代码执行完毕后,该环境被销毁,保存在其中的所有变量和函数定义也随之销毁(全局执行环境直到应用程序退出——例如关闭网页或浏览器——时才会被销毁)

  • 每个函数都有自己的执行环境。当执行流进入一个函数时,函数的环境就会被推入一个环境栈中。而在函数执行之后,栈将其环境弹出,把控制权返回给之前的执行环境。ECMAScript 程序中的执行流正是由这个方便的机制控制着。

  • 当代码在一个环境中执行时,会创建变量对象的一个作用域链(scope chain);作用域链的用途,是保证对执行环境有权访问的所有变量和函数的有序访问。作用域链的前端,始终都是当前执行的代码所在的执行环境的变量对象。如果这个环境是函数,则将其活动对象(activation object)作为变量对象。活动对象在最开始时只包含一个变量,即 arguments 对象(这个对象在全局环境中是不存在的)。作用域链中的下一个变量对象来自包含(外部)环境,而再下一个变量对象则来自下一个包含环境。这样,一直延续到全局执行环境;全局执行环境的变量对象始终都是作用域链中的最后一个对象。

  • 标识符解析(变量解析过程)是沿着作用域链一级一级地搜索标识符的过程。搜索过程始终从作用域链的前端开始,然后逐级地向后回溯,直至找到标识符为止(如果找不到标识符,通常会导致错误发生)。

例子:

const color = 'blue'
function changeColor(){
  if (color === 'blue'){
      color = 'red'
  } else {
  color = 'blue'
  }
}
changeColor();
alert('Color is now ' + color)

上面例子中,函数 changeColor() 的作用域链包含两个对象:它自己的变量对象(其中定义着 arguments 对象)和全局环境的变量对象。可以在函数内部访问变量 color ,就是因为可以在这个作用域链中找到它。

在局部作用域中定义的变量可以在局部环境中与全局变量互换使用,如下例子:

const color = 'blue'
function changeColor(){
  let anotherColor = 'red'
  function swapColors(){
      const tempColor = anotherColor
      anotherColor = color
      color = tempColor
      // 这里可以访问 color、anotherColor 和 tempColor
  }
  // 这里可以访问 color 和 anotherColor,但不能访问 tempColor
  swapColors()
}
// 这里只能访问 color
changeColor()

以上代码共涉及 3 个执行环境:全局环境、changeColor() 的局部环境和 swapColors() 的局部环境。全局环境中有一个变量color 和一个函数 changeColor()。changeColor() 的局部环境中有一个名为 anotherColor 的变量和一个名为 swapColors() 的函数,但它也可以访问全局环境中的变量 color。swapColors() 的局部环境中有一个变量 tempColor,该变量只能在这个环境中访问到。无论全局环境还是 changeColor() 的局部环境都无权访问 tempColor。然而,在 swapColors() 内部则可以访问其他两个环境中的所有变量,因为那两个环境是它的父执行环境。

在这里插入图片描述

内部环境可以通过作用域链访问所有的外部环境,但外部环境不能访问内部环境中的任何变量和函数。这些环境之间的联系是线性、有次序的。每个环境都可以向上搜索作用域链,以查询变量和函数名;但任何环境都不能通过向下搜索作用域链而进入另一个执行环境。

对于这个例子中的 swapColors() 而言,其作用域链中包含 3 个对象: swapColors() 的变量对象、 changeColor() 的变量对象和全局变量对象。swapColors() 的局部环境开始时会先在自己的变量对象中搜索变量和函数名,如果搜索不到则再搜索上一级作用域链。 changeColor() 的作用域链中只包含两个对象:它自己的变量对象和全局变量对象。这也就是说,它不能访问 swapColors() 的环境。

# 延长作用域链

虽然执行环境的类型总共只有两种——全局和局部(函数),但还是有其他办法来延长作用域链。具体来说就是当执行流进入下列任何一个语句时,作用域链就会得到加长:

  • try-catch 语句的 catch 块
  • with 语句

这两个语句都会在作用域链的前端添加一个变量对象;但是不同的是:

  • 对 with 语句来说,会将指定的对象添加到作用域链中。
  • 对 catch 语句来说,会创建一个新的变量对象,其中包含的是被抛出的错误对象的声明。

如下代码:

function buildUrl() {
  const qs = '?debug=true'
  with(location){
    const url = href + qs
  }
  return url
}

上面代码中, with 语句接收的是 location 对象,因此其变量对象中就包含了 location 对象的所有属性和方法,而这个变量对象被添加到了作用域链的前端。buildUrl() 函数中定义了一个变量 qs 。当在 with 语句中引用变量 href 时(实际引用的是 location.href),可以在当前执行环境的变量对象中找到。当引用变量 qs 时,引用的则是在 buildUrl() 中定义的那个变量,而该变量位于函数环境的变量对象中。至于 with 语句内部,则定义了一个名为 url 的变量,因而 url 就成了函数执行环境的一部分,所以可以作为函数的值被返回。

# 块级作用域

使用 var 声明的变量会自动被添加到最接近的环境中。在函数内部,最接近的环境就是函数的局部环境;在 with 语句中,最接近的环境是函数环境。如果初始化变量时没有使用 var 声明,该变量会自动被添加到全局环境。

使用 let、const 定义的变量,存在块级作用域。

# 变量的查找

在查找一个变量时是从作用域链的前端开始,向上逐级查询与给定名字匹配的标识符。如果在局部环境中找到了该标识符,搜索过程停止,变量就绪。如果在局部环境中没有找到该变量名,则继续沿作用域链向上搜索。搜索过程将一直追溯到全局环境的变量对象。如果在全局环境中也没有找到这个标识符,则意味着该变量尚未声明。

如下例子:

const color = 'blue'
function getColor(){
  return color
}
alert(getColor()) // 'blue'

调用本例中的函数 getColor() 时会引用变量 color。为了确定变量 color 的值,将开始一个两步的搜索过程。首先,搜索 getColor() 的变量对象,查找其中是否包含一个名为 color 的标识符。在没有找到的情况下,搜索继续到下一个变量对象(全局环境的变量对象),然后在那里找到了名为 color 的标识符。因为搜索到了定义这个变量的变量对象,搜索过程宣告结束。 在这个搜索过程中,如果存在一个局部的变量的定义,则搜索会自动停止,不再进入另一个变量对象。换句话说,如果局部环境中存在着同名标识符,就不会使用位于父环境中的标识符。如下代码:

const color = 'blue'
function getColor(){
  const color = 'red'
  return color
}
alert(getColor()) // red

修改后的代码在 getColor() 函数中声明了一个名为 color 的局部变量。调用函数时,该变量就会被声明。而当函数中的第二行代码执行时,意味着必须找到并返回变量 color 的值。搜索过程首先从局部环境中开始,而且在这里发现了一个名为 color 的变量,其值为 "red"。因为变量已经找到了,所以搜索即行停止,return 语句就使用这个局部变量,并为函数会返回 "red" 。也就是说,任何位于局部变量 color 的声明之后的代码,如果不使用 window.color 都无法访问全局 color变量。

变量查询也不是没有代价的。很明显,访问局部变量比访问全局变量更快,因为不用向上搜素作用域链。JavaScript 引擎在优化标识符查询方面做的不错,因此这个差别在将来恐怕就可以忽略不计了。

# 垃圾收集

JavaScript 具有自动垃圾收集机制,也就是说,执行环境会负责管理代码执行过程中使用的内存。而在 C 和 C++ 之类的语言中,开发人员你的意向基本任务就是手工跟踪内存的使用情况,这是造成许多问题的一个根源。在 JavaScript 中所需内存的分配以及无用内存的回收完全实现了自动管理。

垃圾回收机制的原理其实很简单:找出那些不在继续使用的变量,然后释放其占用的内存。为此,垃圾收集齐会按照固定的时间间隔(或者代码执行中预定的收集时间),周期性地执行这一操作。

我们来分析一下函数中局部变量的正常生命周期。局部变量只在函数执行的过程中存在。而在这个过程中,会为局部变量在栈(或堆)内存上分配相应的空间,以存储他们的值。然后在函数中使用这些变量,直至函数执行结束。此时,局部变量就没有存在的必要了,因此可以释放他们的内存以供将来使用。在这种情况下,很容易判断变量是否还有存在的必要;但并非所有情况下都这么容易就能得出结论。垃圾收集齐必须跟踪哪个变量有用哪个变量没用,对于不在有用的变量打上标记,以备将来收回其占用的内存。用于标识无用变量的策略可能会因实现而异,但具体到浏览器中的实现,则通常有两种策略:标记清除、引用计数

# JavaScript 中的栈内存与堆内存

上述过程中,JavaScript 中变量分为基本类型值和引用类型值:

  • 基本类型值在内存中占固定大小的空间,因此被保存在栈内存中;
  • 引用类型值是对象,保存在堆内存中。包含引用类型值的变量实际包含并非对象本身,而是指向该对象的指针。一个变量从另一个变量复制引用类型的值时,复制的也是指向该对象的指针。

# 标记清除

标记清除(mark-and-sweep) 是 JavaScript 中最常用的垃圾回收方式。其执行机制如下:

  • 当变量进入环境时(例如在函数中声明一个变量),就将其标记为“进入环境”
  • 当变量离开环境时将其标记为“离开环境”

逻辑上,永远不能释放进入环境的变量所占用的内存,因为执行流进入相应的环境时,可能会用到它们。 标记变量的方式有很多种,可以使用标记位的形式记录变量进入环境,也可单独为“进入环境”和“离开环境”添加变量列表来记录变化。 标记清除采用的收集策略为:

  • JavaScript 中的垃圾收集器运行时会给存储在内存中的所有变量都加上标记(可以使用任何标记方式);
  • 然后去掉环境中的变量以及被环境中的变量引用的变量的标记;
  • 此后,再被加上标记的变量被视为准备删除的变量,原因是环境中的变量已经无法访问到这些变量了。
  • 最后,垃圾收集器完成内存清除,销毁那些带标记的值并回收其占用的内存空间。

2008 年之前,IE、Firefox、Opera、Chrome 和 Safari 的 JavaScript 实现使用的均为标记清除式的垃圾回收策略,区别可能在垃圾收集的时间间隔。

# 引用计数

另一种不太常见的垃圾收集策略叫做引用计数。引用计数的额含义是跟踪记录每个值被引用的次数。

  • 当声明一个变量并将一个引用类型值赋值给该变量时,这个值的引用次数为1;
  • 若同一个值(变量)又被赋值给另一个变量,则该值的引用次数加1;
  • 但是如果包含对这个值引用的变量又取得了另外一个值,则这个值的引用次数减1;
  • 当这个值的引用次数为 0 时,则无法再访问这个值,就可回收其占用的内存空间;

垃圾收集器下次运行时,会释放那些引用次数为零的值所占用的内存。引用计数存在一个致命的问题:循环引用。循环引用是指,对象 A 中包含一个指向对象 B 的指针,而对象 B 中也包含一个指向对象 A 的引用。下面的例子:

function problem() {
  const objectA = new Object()
  const objectB = new Object()
  objectA.someOtherObject = objectB
  objectB.anotherObject = objectA
}

上述例子中 objectA 和 objectB 通过各自属性相互引用。按照引用计数的策略,两个对象的引用次数均为 2。若采用标记清除策略,函数执行完毕,对象离开作用域就不存在相互引用。但采用引用计数后,函数执行完,两个对象的引用次数永不为 0,会一直存在内存中,若多次调用,导致大量内存得不到回收。

IE8 浏览器 之前中有一部分对象并不是原生的 JavaScript 对象,可能是使用 C++ 以 COM 对象的形式实现的(BOM, DOM)。而 COM 对象的垃圾收集机制采用的是引用计数策略。即使 IE 的 JavaScript 引擎是使用标记清除策略实现的,但 JavaScript 访问 COM 对象仍然是基于 引用计数策略的。在这种情况下,只要在 IE 中涉及 COM 对象,就可能存在循环引用的问题。为避免出现循环引用,最好在不使用这些对象时,手动断开原生 JavaScript 对象 与 DOM 元素之间的连接。IE 中的循环引用与手动断开的操作如下所示:

const element = document.getElementById('some_element')
const myObject = new Object()
myObject.element = element
element.someObject = myObject
// 以上 存在循环引用
// ...... 
// 以下 手动断开连接
myObject.element = null
element.someObject =null

# 性能问题

垃圾收集器是周期运行的,确定垃圾收集的时间间隔是个重要的问题。IE7 之前的垃圾收集器是根据内存分配量运行的,即 256 个变量、4096 个对象(数组)字面量或 64 KB 的字符串。达到这些临界值的任何一个,垃圾收集器就会运行。所以就导致如果一个脚本含有很多变量,在整个生命周期中一直保有前面临界值大小的变量,就会频繁触发垃圾回收,会存在严重的性能问题。IE7 重写了垃圾收集例程。新的工作方式为:触发垃圾收集的变量分配、字面量和数组元素的临界值被调整为动态修正。初始值与之前版本相同,但如果垃圾收集例程回收的内存低于 15%,则临界值加倍。若回收内存分配量超过 85%,则临界值重置回默认值。

# 管理内存

JavaScript 在进行内存管理及垃圾收集时面临的问题还是有点与众不同。其中最主要的一个问题,就是分配给 web 浏览器的可用内存数量通常要比分配给桌面应用程序的少。这样做的目的主要是出于安全方面的考虑,目的是防止运行 JavaScript 的网页耗尽全部系统内存而导致系统奔溃。内存限制问题不仅会影响给变量分配内存,同时还会影响调用栈以及在一个线程中能够同时执行的语句数量。

因此,确保占用最少的内存可以让页面获得更好的性能。而优化内存占用的最佳方式,就是为执行中的代码只保存必要的诗句。一旦数据不再有用,最好通过将其值设置为 null 来释放其引用,这个做法叫做接触引用。这个做法适用于大多数全局变量和全局对象的属性。局部变量会在他们离开执行环境时自动被解除引用。如下面例子:

function createPerson(name) {
  const localPerson = new Object()
  localPerson.name = name
  return localPerson
}
const globalPerson = createPerson('Nicholas')
// 手动解除 globalPerson 的引用
globalPerson = null

解除一个值的引用并不意味着自动回收该值所占用的内存。解除引用的真正作用是让值脱离执行环境,以便垃圾回收器下次运行时将其回收。

# JavaScript V8 引擎的垃圾回收机制

在 JavaScript 脚本中,绝大多数对象的生存期很短,只有部分对象的生存期较长。所以,V8 中的垃圾回收主要使用的是 分代回收 (Generational collection)机制。

# 分代回收机制

V8 引擎将保存对象的 堆 (heap) 进行了分代:

  • 对象最初会被分在新生区(New Space) (1~8M),新生区的内存分配只需要保有一个指向内存区的指针,不断根据内存大小进行递增,当指针达到新生区的末尾,会有一次垃圾回收清理(小周期),清理掉新生区中不再活跃的死对象。
  • 对于超过 2 个小周期的对象,则需要将其移动至老生区(Old Space)。老生区在标记-清除或标记-紧缩的过程(大周期)中进行回收。

大周期进行的并不频繁。一次大周期通常是在移动足够多的对象至老生区后才会发生。

# Scavenge 算法

由于垃圾清理发生的比较频繁,清理的过程必须很快。V8 中的清理过程使用的是 Scavenge 算法,按照经典的 Cheney 算法实现的。Scavenge 算法的主要过程是:

  • 新生区被分为两个等大小的子区(semi-spaces):to-space 和 from-space;
  • 大多数的内存分配都是在 to-space 发生 (某些特定对象是在老生区);
  • 当 to-space 耗尽时,交换 to-space 和 from-space, 此时所有的对象都在 from-space;
  • 然后将 from-space 中活跃的对象复制到 to-space 或者老生区中;
  • 这些对象被直接压到 to-space,提升了 Cache 的内存局部性,可使内存分配简洁快速。

# 不能被忽视的写屏障 Write barriers

如果新生区有某个对象,只有一个指向它的指针,恰好该指针在老生区的对象中,在垃圾回收之前我们如何得知新生区的该对象是活跃的呢?为解决此问题,V8 在写缓冲区有一个列表,其中记录了所有老生区对象指向新生区的情况。新生区对象诞生时不会有指向它的指针,当老生区的对象出现指向新生区对象的指针时,便记录跨区指向,记录行为总是发生在写操作中。

# 标记-清除算法 与 标记-紧缩算法

因为新生区的内存一般都不大,所以使用 Scavenge 算法进行垃圾回收效果比较好。老生区一般占用内存较大,因此采用的是 标记-清除(Mark-Sweep)算法 与 标记-紧缩(Mark-Compact)算法。两种算法都包括两个阶段:标记阶段,清除或紧缩阶段。

# 标记阶段

在标记阶段,堆上所有的活跃对象都会被发现并且标记。

  • 每一页都包含用来标记的位图
  • 位图都要占据空间 (3.1% on 32-bit, 1.6% on 64-bit systems)
  • 使用两位二进制标记对象的状态
  • 状态为白(white), 它尚未被垃圾回收器发现
  • 状态为灰(gray), 它已被垃圾回收器发现,但它的邻接对象仍未全部处理完毕
  • 状态为黑(black), 它不仅被垃圾回收器发现,而且其所有邻接对象也都处理完毕

标记算法的核心是 深度优先搜索,具体过程为:

  • 在标记的初期,位图是空的,所有对象也都是白的。 从根可达的对象会被染色为灰色,并被放入标记用的一个单独分配的双端队列。
  • 标记阶段的每次循环,GC会将一个对象从双端队列中取出,染色为黑,然后将它的邻接对象染色为灰,并把邻接对象放入双端队列。
  • 这一过程在双端队列为空且所有对象都变黑时结束。
  • 特别大的对象,如长数组,可能会在处理时分片,以防溢出双端队列。如果双端队列溢出了,则对象仍然会被染为灰色,但不会再被放入队列(这样他们的邻接对象就没有机会再染色了)。
  • 因此当双端队列为空时,GC仍然需要扫描一次,确保所有的灰对象都成为了黑对象。对于未被染黑的灰对象,GC会将其再次放入队列,再度处理。

标记算法结束后,所有的活跃对象都被染成黑色,所有的死对象仍是白的。下一步就可以清除或者紧缩了。

# 清除 或 紧缩 算法

标记算法执行后,可以选择清除 或是紧缩,这两个算法都可以收回内存,而且两者都作用于页级(V8 中的内存页是 1MB 的连续内存块) 清除算法扫描连续存放的死对象,将其变为空闲空间,并将其添加到空闲内存链表中。清除算法只需要遍历页的位图,搜索连续的白对象。每一页都包含数个空闲内存链表,其分别代表小内存区(<256字)、中内存区(<2048字)、大内存区(<16384字)和超大内存区(其它更大的内存)] 紧缩算法会尝试将对象从碎片页(包含大量小空闲内存的页)中迁移整合在一起,来释放内存。这些对象会被迁移到另外的页上,因此也可能会新分配一些页。而迁出后的碎片页就返还给操作系统。

紧缩算法会尝试将对象从碎片页(包含大量小空闲内存的页)中迁移整合在一起,来释放内存。这些对象会被迁移到另外的页上,因此也可能会新分配一些页。而迁出后的碎片页就返还给操作系统

对目标碎片页中的每个活跃对象,在空闲内存链表中分配一块其它页的区域,将该对象复制至新页,并在碎片页中的该对象上写上转发地址。 迁出过程中,对象中的旧地址会被记录下来,这样在迁出结束后V8会遍历它所记录的地址,将其更新为新的地址。由于标记过程中也记录了不同页之间的指针,此时也会更新这些指针的指向。

# 增量标记 与 惰性清除

对于一个堆很大,活跃对象有很多的脚本时,标记-清除 与 标记-紧缩 的效率可能会很慢,为减少垃圾回收引起的停顿,引入了增量标记(Incremental marking) 和惰性清理(lazy sweeping)。增量标记允许堆的标记(前面的标记阶段)发生在几次5-10毫秒的小停顿中。增量标记在堆的大小达到一定的阈值时启用,启用之后每当一定量的内存分配后,脚本的执行就会停顿并进行一次增量标记。就像普通的标记一样,增量标记也是一个深度优先搜索,并同样采用白灰黑机制来分类对象。增量标记与普通标记的区别是,添加了从黑对象到白对象的指针,为此需要再次启用写屏障中,在记录 老->新 的同时,记录 黑->白。在进行清除时,一旦在写屏障中发现这样的指针,黑对象会被重新染色为灰对象,重新放回到双端队列中。惰性清理是指在标记完成后,并不急着释放空间,无需一次清理所有的页,垃圾回收器会视情况逐一清理,直到所有页都清理完成。 余下的涉及垃圾回收原理的部分留着后面继续整理。(平行标记 与 并发标记)

评 论:

更新: 12/27/2020, 4:59:16 PM