【kubernetes】网络虚拟网卡对veth pair、flannel网络模型实现原理

补课：虚拟网卡对veth pair什么是虚拟网卡对veth pair？Virtual Ethernet Pair简称veth pair,是一个成对的端口,所有从这对端口一端进入的数据包都将从另一端出来,反之也是一样.netns相关命令#创建veth pair[root@centos ~]# ip link add tap1 type veth peer name tap2#创建namespace

^白开水^

2050人浏览 · 2020-12-06 09:45:43

^白开水^ · 2020-12-06 09:45:43 发布

补课：虚拟网卡对veth pair

什么是虚拟网卡对veth pair？

Virtual Ethernet Pair简称veth pair,是一个成对的端口,所有从这对端口一端进入的数据包都将从另一端出来,反之也是一样.

netns相关命令

#创建veth pair
[root@centos ~]# ip link add tap1 type veth peer name tap2
#创建namespace：ns1和ns2
[root@centos ~]# ip netns add ns1
[root@centos ~]# ip netns add ns2
#把两个tap分别迁移到对应的namespace中去
[root@centos ~]# ip link set tap1 netns ns1
[root@centos ~]# ip link set tap2 netns ns2
#分别给两个tap绑定IP
[root@centos ~]# ip netns exec ns1 ip addr add local 192.168.50.1/24 dev tap1
[root@centos ~]# ip netns exec ns2 ip addr add local 192.168.50.2/24 dev tap2
#将两个tap设置为up
[root@centos ~]# ip netns exec ns1 ifconfig tap1 up
[root@centos ~]# ip netns exec ns2 ifconfig tap2 up
#ping测试
[root@centos ~]# ip netns exec ns2 ping 192.168.50.1
PING 192.168.50.1 (192.168.50.1) 56(84) bytes of data.
64 bytes from 192.168.50.1: icmp_seq=1 ttl=64 time=0.051 ms
64 bytes from 192.168.50.1: icmp_seq=2 ttl=64 time=0.025 ms
64 bytes from 192.168.50.1: icmp_seq=3 ttl=64 time=0.027 ms

查看host/container veth pair 关系

可以通过iflink和ifindex查看
在容器里面执行

# cat /sys/class/net/eth0/iflink
7

在主机遍历/sys/class/net下网卡内子目录ifindex的值和容器里面查出来的iflink值相当的veth名字

# cat /sys/class/net/ 
## find /sys/devices/virtual/net -type f -name "ifindex" |xargs grep "7"
/sys/devices/virtual/net/veth423bfe6/ifindex:7

引用：

Linux虚拟网络基础——veth pair
veth pair 介绍
 查看host/container veth pair 关系

docker 网络

docker网络有哪些?

# docker network ls
NETWORK ID          NAME                DRIVER              SCOPE
742bf53d2d37        bridge              bridge              local
9a4b4bcd0780        host                host                local
f03248be6b9c        none                null                local

还有共享其他容器的网络空间，加起来4种。

bridge是使用独立的net ns，还有虚拟网卡对实现网络模式。
host是共享主机的net ns实现网络模式。
none只有lo网络，但是K8S的网络插件会通过CNI的方式实现创建容器网络空间（network namespace）、把网络接口（interface）放到对应的网络空间、给网络接口分配 IP 等等。
共享其他容器的net ns，这个是pod中应用容器会join到pause容器的net ns中。

2. docker的host是如何实现的？

# docker run -it --rm --network host  busybox  /bin/sh
# docker inspect -f '{{.State.Pid}}' 3a90b29a303c
# cd /proc/63880/ns/

net的空间地址是和系统的ns地址一致

2.1 如何看到系统有多少netns？

#ip netns list 
#不是通过ip netns 创建的是用这个命令看不到的

3.docker的bridge模式是如何实现的？

同一主机内的2个bridge网络的容器互相访问，容器的路由是指向docker0地址，通过虚拟网卡对将数据发送到docker0，而docker0相当于二层交换机，将2个容器的访问数据互相转发。
docker0将容器的数据发送到外界，是通过iptables实现的。

3.1 docker0是什么？

docker0：docker容器网络采用Bridge（桥接模式）形式下的网络接口，可以简单理解为虚拟的交换机和路由器

3.2 bridge通信过程？

容器eth0@if7: 172.17.0.2/16 --> 主机veth423bfe6@if6 --> 主机docker0: 172.17.0.1/16

ps：图片摘自：Bridge网络实现原理

3.3 虚拟网卡对怎么和docker0网卡交互的？

# 进入bridge网络的容器然后查看路由
# route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
0.0.0.0         172.17.0.1      0.0.0.0         UG    0      0        0 eth0
172.17.0.0      0.0.0.0         255.255.0.0     U     0      0        0 eth0

可以看出容器数据通过虚拟网卡对的方式，数据进入veth423bfe6@if6虚拟网络，然后路由到docker0网络

3.4 docker0网卡是怎么将容器数据通过eth0转发出去的？

#查看iptables策略
#iptables-save
-A POSTROUTING -s 172.17.0.0/16 ! -o docker0 -j MASQUERADE
#查看主机路由表
# route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
0.0.0.0         192.168.145.2   0.0.0.0         UG    0      0        0 ens33
169.254.0.0     0.0.0.0         255.255.0.0     U     1002   0        0 ens33
172.17.0.0      0.0.0.0         255.255.0.0     U     0      0        0 docker0
192.168.145.0   0.0.0.0         255.255.255.0   U     0      0        0 ens33

可以看出主机路由没有进行特殊路由，而是通过iptables收到数据如果不在路由表中，则将数据进行SNAT后通过主机的Gateway发送出去

3.5 补课：SNAT机制，数据包分析？外部回来的数据是如何处理的？

根据路由设置，如果外界收到的包拆包后，收到的目标地址是172.17.0.0的网段，就会交给docker0处理。

 #先进行tcpdump抓包
 tcpdump 172.17.0.2 -w /tmp/172.17.0.2.cap

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-inZKyfAU-1607219010879)(k8s网络.assets/1607133798695.png)]

TCP数据传输是通过4元组，出去的数据建立的链接包含原地址端口和目标地址端口，回来的数据也是按照原路的端口回来，所以数据最终交给docker0，而docker0也会记录session将数据交给正确的容器地址。

k8s的网络实现

k8s如何管理docker网络

通过CNI接口对docker网络进行管理实现创建容器网络空间（network namespace）、把网络接口（interface）放到对应的网络空间、给网络接口分配 IP 等等。

网络模式

overlay模式
flannel的vxlan
calico的ipip
underlay模式
flannel的host-gw
calico的BGP

flannel的 vxlan模式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iAhG8dtP-1607219010880)(https://xuxinkun.github.io/img/flannel/flannel.png)] ](https://img-blog.csdnimg.cn/20190304124933913.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01hdHJpeEdvZA==,size_16,color_FFFFFF,t_70)

主机端网络流量情况

flannel

那么docker0到flannel0是如何实现的？

veth卡会桥接在cni0的网桥上。

# brctl show                 
bridge name     bridge id               STP enabled     interfaces
cni0            8000.a26027094489       no              vethada78762
docker0         8000.0242a95731e7       no

数据包走到了cni0的网桥后，根据已经的目标ip，10.244.1.2，可以查找路由表，根据路由和掩码，选择对应的iface，也就是flannel.1。且下一跳，也就是10.244.1.0。

[root@node-64-216 ~]# route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
0.0.0.0         10.10.10.1       0.0.0.0         UG    0      0        0 em1
10.10.10.0       0.0.0.0         255.255.255.0   U     0      0        0 em1
10.244.0.0      0.0.0.0         255.255.255.0   U     0      0        0 cni0
10.244.1.0      10.244.1.0      255.255.255.0   UG    0      0        0 flannel.1

进入到flannel.1如何知道应该发向哪个物理机呢。这个时候，其实是通过arp来获取。可以通过arp命令查看到对应的mac地址。

# arp -e
Address                  HWtype  HWaddress           Flags Mask            Iface
10.244.1.0               ether   3e:01:ed:47:de:7f   CM                    flannel.1

这个mac地址在vxlan中，可以通过bridge fdb show来进行查看。可以看到，如果是发向3e:01:ed:47🇩🇪7f的地址，则目标机器在10.10.10.217机器上。则数据就会流转到10.10.10.217上了。经过vxlan封包后的数据包就会经过em1设备发向到10.10.10.217上。

# bridge fdb show
3e:01:ed:47:de:7f dev flannel.1 dst 10.10.10.217 self permanent

在10.10.10.217上，首先经过了iptables链，而后在flannel.1的Iface上则接收到该数据包。这里我们可以看到，flannel.1的mac地址就是3e:01:ed:47🇩🇪7f。

这里我曾经就是遇到过被iptables的forward链拦住的情况。如果数据包在216的flannel.1上可以监测到，但是217的flannel.1中断了，则可以检查216到217之间的路由情况以及217的iptables链的情况。

[root@node-64-217 ~]# ip add
2: em1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
    link/ether 90:b1:1c:33:b4:b1 brd ff:ff:ff:ff:ff:ff
    inet 10.10.10.217/24 brd 10.10.10.255 scope global em1
       valid_lft forever preferred_lft forever
152: flannel.1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue state UNKNOWN group default 
    link/ether 3e:01:ed:47:de:7f brd ff:ff:ff:ff:ff:ff
    inet 10.244.1.0/32 scope global flannel.1
       valid_lft forever preferred_lft forever
153: cni0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue state UP group default qlen 1000
    link/ether 36:11:ab:93:2f:6f brd ff:ff:ff:ff:ff:ff
    inet 10.244.1.1/24 scope global cni0
       valid_lft forever preferred_lft forever
154: veth7f8b8e9e@if3: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1450 qdisc noqueue master cni0 state UP group default 
    link/ether 06:2f:35:74:cd:de brd ff:ff:ff:ff:ff:ff link-netnsid 0

到达flannel.1后，根据路由表，查看10.244.1.2的路由应送到217的cni0的网桥上。

[root@node-64-217 ~]# route -n
Kernel IP routing table
Destination     Gateway         Genmask         Flags Metric Ref    Use Iface
0.0.0.0         10.10.10.1       0.0.0.0         UG    0      0        0 em1
10.10.10.0       0.0.0.0         255.255.255.0   U     0      0        0 em1
10.244.0.0      10.244.0.0      255.255.255.0   UG    0      0        0 flannel.1
10.244.1.0      0.0.0.0         255.255.255.0   U     0      0        0 cni0

这里我们查看cni0的网桥信息。

[root@node-64-217 ~]# brctl show 
bridge name	bridge id		STP enabled	interfaces
cni0		8000.3611ab932f6f	no		veth5a89e906
							veth7f8b8e9e

到达网桥后，就可以根据地址将数据送到10.244.1.2的对应的veth上，进而在容器中收到对应的数据包了。

以上就是两个处于不同物理机上的容器间发送数据包的流程。相比较来说，从容器到物理机的ping就简单多了。这个流程就是veth->cni0->em1->对端物理机ip。这里就不详细叙述了。

同一台物理机上不同容器的ping只需要经过cni0的网桥就可以了。

引用：

flannel vxlan工作基本原理及常见排障方法

flannel的VXLAN的Directrouting模式

VXLAN还有另外一种功能，VXLAN也支持类似host-gw的玩法，如果两个节点在同一网段时使用host-gw通信，如果不在同一网段中，即当前pod所在节点与目标pod所在节点中间有路由器，就使用VXLAN这种方式，使用叠加网络。
结合了Host-gw和VXLAN，这就是VXLAN的Directrouting模式

calico的IPIP模式

待补充

calico的BGP模式

待补充

引用：

k8s与网络–Flannel解读

171vr.cn

Cloudpods

开源、云原生的融合云平台

更多推荐

面向未来的 IT 基础设施管理架构——融合云（Unified IaaS）

随着数字化时代的到来，IT系统已成为人类社会正常运转不可或缺的组成部分。不远的未来，智能制造，5G和人工智能等技术将成为推动生产力发展的重要引擎，人类社会将面临前所未有的全面彻底的数字化浪潮。IT基础设施作为IT系统运行的平台和载体，是实现数字化的基石。在这场数字化浪潮中，企业必须积极拥抱云计算技术，采用符合技术发展趋势、面向未来的IT基础构架，才能在未来的竞争中赢得先机。一、云计算历经十余年

Cloudpods

Cloudpods负载均衡的功能介绍

作者:周有松今天的内容会从以下几个方面展开：负载均衡产品简介。主要介绍负载均衡作为一个云上产品，它的功能模型是怎样的，日常使用中会遇到的业务词汇负载均衡的功能与典型应用场景。这部分主要结合业务词汇，对负载均衡服务中常见的一些功能选项进行介绍，并举例介绍一些典型的应用场景最后，我们做一下总结，讨论一下负载均衡产品相比传统方式的优点一、产品简介 1. 以NGINX为例提到负载均衡，我们以

Cloudpods

使用Linux vfio将Nvidia GPU透传给QEMU虚拟机

Linux 上虚拟机 GPU 透传需要使用 vfio 的方式。主要是因为在 vfio 方式下对虚拟设备的权限和 DMA 隔离上做的更好。但是这么做也有个缺点，这个物理设备在主机和其他虚拟机都不能使用了。 qemu 直接使用物理设备本身命令行是很简单的，关键在于事先在主机上对系统、内核和物理设备的一些配置。单纯从 qemu 的命令行来看，其实和普通虚拟机启动就差了最后那个-device的选项。这