眼球交互vs眼疲劳，前Vision Pro设计师揭秘这些细节|世界即时看

2023-06-23 17:37:44 来源 : 搜狐数码

Vision Pro的发布带来了众多讨论，从交互层面来看，它真正的将AR/VR的首选交互从手柄转移到手势+眼球上面来，此前的AR、VR大部分还是通过手柄来完成交互（HoloLens除外），手势交互是它们的第二选择。

交互方式主要靠眼睛注视（融合手势）的方式自然也会带来一些疑问，比如是否容易造成眼疲劳？围绕这一话题，也有不少开发者、工程师、设计师等展开讨论。

近期，前苹果高级AI和AR设计师Bart Trzynadlowski发表了自己的看法，它在职期间负责了Vision Pro和在保密阶段的AR项目开发工作，虽然不能泄密，但它公开资料中向我们带来更多解读，包括技术、UI、UX等多个方面。

(资料图片仅供参考)

1. 眼球追踪交互的难点

为什么眼球追踪不能转换成精准的输入？这就要说到复杂的人眼运动特性。人眼除了主动移动外，还会存在一些细微的被动运动，如果这些微动作被识别为意图，那么眼球追踪结果很难准确。

因此，眼球追踪系统存在一种叫“Midas Touch”的难题，即人眼常见的眼跳、眨眼等无意的微动作会在交互中产生误操作，就像是传说中的Midas一样，手指点到的任何东西都会变成金子。如果眼球交互的错误率高，那么体验感也不会理想。

此前，Unity高级研发工程师Eric Pvncher曾指出，此前的XR头显不广泛使用眼球输入，原因是很难做到精准，而且过度使用人眼会产生认知负担。比如在一个用注视点控制光标绘画的demo中，可以明显看到眼球输入的笔迹是抖动的，不能很准确的控制光标。

换句话说，现阶段眼球输入并不能达到鼠标点击的精准性和灵敏性，因此在交互设计上，不适合直接借鉴鼠标移动光标的方式。更重要的是，相比于手动操控鼠标，用频繁转动眼球移动光标也会对视力损耗不小。

2. 硬件的改善优化

为了优化眼球交互/输入，苹果从硬件、UI、交互方式等多方面都做出了努力。

硬件方面，AVP的眼球追踪模组（IR相机、LED光源）位于透镜之下，可以更好更全面的捕捉人眼的动作。而Quest Pro则不同，它的IR相机和LED位于透镜外侧，更靠近人眼。

3. 系统和软件的优化

在近眼显示设备中，眼舒适是个永恒的话题，无论是否融合眼球追踪技术，关于显示也同样如此。

而基于眼球追踪的交互必然会造成眼疲劳，这点毋庸置疑。实际上苹果在WWDC23/10078公开课中也明确这一点，同时还提到：需要在系统和软件层面提供“合适的设计”，让眼睛得到休息也是交互中重要的一点。

其中有几个核心设计技巧：

1，视觉中心应该中心，且略靠下位置（也就是视轴方向）；

2，眼睛转动优先左右移动，而不是上下或斜向转动；

其中，还明确提到如果眼睛大范围转动是必要交互，也应尽可能减少眼睛大范围的转动，并且考虑让眼睛能够持续交互过程中有片刻休息的“自然断点”，而不是通过给予持续的UI反馈持续吸引眼球。

作为眼球注视+手势的融合交互带来的好处也很明显，就是非常直接，从多位现场体验的媒体来看也的确如此，普遍好评。

为进一步提升注视点预测的准确性，苹果还为Vision Pro搭配了精心设计的UI，可以很好的配合现有的眼球追踪技术，较为准确的识别、过滤用户意图。比如，将可交互的元素设计的比较大，并尽量采用圆润的图形，来增加注视点可停留的区域，从而很好的辅助眼球追踪功能。

目前还不确定Vision Pro是否会从算法上过滤眼球运动数据的噪点（无意识的错误运动），不过对于患有眼球震颤等视力问题的患者，该头显还会提供其他辅助（无需眼球注视）的交互方式。而现阶段，Quest Pro似乎还未提供类似的设计（当然它有手柄），一位眼球震颤患者表示：由于眼球运动频繁，Quest Pro并不能准确识别注视点意图。

4. 侧重识别用户意图

视觉是生活中最重要、最常用的人体功能之一，当你看真实世界时，可能会不断转动眼球，由于我们已经足够熟悉这种交互，很多时候眼球运动都是无意识的。而在注视点追踪系统中，当你主动控制眼球运动，可能容易产生视觉疲劳。

为了让XR头显的眼球交互能像现实生活中一样自然，苹果更侧重于识别用户的注视意图，而不是鼓励用户看向特定的位置。

目前基于键鼠的PC交互实际也结合了注视动作，当你在2D屏幕做选择时首先会不自觉看向目标位置。因此，只要Vision Pro准确、快速的追踪用户的注视意图，理论上就可以很好的较快输入效率，而不需要用户有意识转动眼球选择。

另一方面，针对手部不灵活的用户，Vision Pro也可以只通过眼球动作来辅助交互，比如持续凝视一个位置等。Bart指出，有大量研究和demo显示，主动眼球交互在部分情况下可以做到足够舒适（比如停留、追随移动目标、特定动作姿态等）。

而在2017年时，一家叫Quantum Interface的公司曾展示了一种有趣的头部交互方式，特点是基于头部追踪，你可以通过移动头部来瞄准，或甩头展开选项。同理，眼球输入也可以使用一些简单的姿态，比如反复扫视一个区域。

为了避免第三方App读取注视点等生物信息，只有在手势确认时将注视点信息识别为交互操作，而手势追踪是一种系统级功能，因此第三方App不能直接读取用户实时的注视点方向，避免开发者滥用眼球数据来设计交互。

也就是说，Vision Pro的眼球追踪功能主要用于系统交互和优化，比如根据注视点信息可监控人眼行为，预测大脑生物反馈，并在此基础上可进一步优化UI等等。

Bart表示：我认为，苹果在眼球交互上有很深刻的思考，Vision Pro采用了一种自然、简约的眼球交互设计，相信在足够的硬件和软件支持下，能够为用户在下意识进行输入，而不需要主动付出额外努力。

责任编辑：

关键词：