Neural Implicit Dense Semantic SLAM

摘要和介绍

网络结构：

使用instant-ngp作为backbone，为了实时性

根据NeuS来修改网络，为了学习环境的有向距离场
和Neus一样，本文使用体渲染来计算颜色和深度的估计值

给定相机位置$\mathbf{o}$ 和光线方向$\mathbf{v}$
1. 在光线上采样n个点
  
  $\mathbf{p}(t_i)=\mathbf{o}+t_i\mathbf{v},\ i=1,\cdots,n$
2. 颜色和深度的估计值 $$ \hat{I}=\sum_{i=1}^{n}T_i\alpha_ic_i\ \ and \ \ \hat{d}=\sum_{i=1}^{n}T_i\alpha_it_i \tag{1} $$
  - $T_i=\prod_{j=1}^{i-1}$：累积透射比accumulated transmittance
  - $\alpha_i$：不透明度opacity $$ \alpha_i=max\bigg(\frac{\Phi_s(f(\mathbf{p}(t_i)))-\Phi_s(f(\mathbf{p}(t_{i+1})))}{\Phi_s(f(\mathbf{p}(t_i)))},0\bigg) \tag{2} $$
    - $f(\cdot)$：SDF函数
    - $\Phi_s(\cdot)$：sigmoid函数
损失函数 $$ \begin{align} L&=L_{photometric}+L_{geometric}\ &=\sum_{p}||I_{gt}(p)-\hat{I}(p)||1+\sum{p}||d_{gt}(p)-\hat{d}(p)||_2 \end{align} \tag{3} $$
- gt：相机读到的rgbd值
- 深度项只有在深度值非0时计算
此时网络生成的地图包含：

rgb, 深度，和常规地图

根据ORB_SLAM3的标准选择关键帧

作者的方法：只需要使用关键帧的2维语义分割信息，就可以学习场景的3D语义信息
- 在mapping网络中加一个decoder网络：common geometry block
- encoder：将二维语义分割图编码为颜色图colormaps
  
  作者认为：神经辐射场在学习3D场景的颜色时很强，只用颜色图就足以语义分割。
pipline
1. 使用二维语义分割网络来得到每一关键帧的二维语义分割
2. 将语义分割转为颜色图
3. 在上面3式(损失函数)的基础上再加一个语义分割损失来优化神经辐射场网络 $$ L=\sum_{p}||I_{gt}(p)-\hat{I}(p)||1+\sum{p}||d_{gt}(p)-\hat{d}(p)||2+\sum{p}||s_{gt}(p)-\hat{s}(p)||_2\tag{4} $$
  - 首先将未知的语义标签全都转为黑色
  - 深度项只有在深度值非0时计算
  - 只对有颜色的像素计算语义损失
4. 优化后，神经辐射场网络可以生成带语义信息的颜色图

ORB-SLAM在tracking部分可以处理大场景
问题在建图方面，解决方法：
1. 给予orb-slam的是全局空间S，将全局空间S划分为多个子空间$S_i$，子空间是5x5x5立方米的立方体并以立方体的中心$c_i$表示
2. 每一个子空间都有独立的关键帧集合，每当ORB-SLAM检测到新的关键帧，就会利用back-projection找到这个关键帧(相机)所属于的子空间。
3. 每一个子空间的mapping network都是独立优化的
4. 最后将这些子图整合到一起