Open vSwitch 架構概觀

看了 open vswitch 也有一陣子了,斷斷續續也在自己的 wiki 上亂寫了一些東西,但是一直覺得自己不夠熟,也不知道從哪裡開始整理,先在這寫一些概念性的解釋…

官方資料內有一個關於 porting 的文件,裡面畫了實作上的一些抽象元件,幫助你決定要移植 ovs 時,要改寫哪個部份,如下圖。一開始看這張圖應該會有點霧煞煞,對 ovs 的很多概念還不熟悉,不知道從哪裡開始瞭解,看完文件的解釋還是不太懂。

                            |   +-------------------+
                            |   |    ovs-vswitchd   |<-->ovsdb-server
                            |   +-------------------+
                            |   |      ofproto      |<-->OpenFlow controllers
                            |   +--------+-+--------+  _
                            |   | netdev | |ofproto-|   |
                  userspace |   +--------+ |  dpif  |   |
                            |   | netdev | +--------+   |
                            |   |provider| |  dpif  |   |
                            |   +---||---+ +--------+   |
                            |       ||     |  dpif  |   | implementation of
                            |       ||     |provider|   | ofproto provider
                            |_      ||     +---||---+   |
                                    ||         ||       |
                             _  +---||-----+---||---+   |
                            |   |          |datapath|   |
                     kernel |   |          +--------+  _|
                            |   |                   |
                            |_  +--------||---------+
                                         ||
                                      physical
                                        NIC

我自己則是從他安裝完所提供的各種工具與重要背景服務的角度開始,由此開始熟悉 ovs 的概念,感覺這是一個比較好的入門點。我畫了一張類似的圖。

            +---------+  +----------+  +---------+   +---------+
            |ovs-ofctl|  |ovs-appctl|  |ovs-vsctl|   |ovs-dpctl|
            +---------+  +----------+  +---------+   +---------+
                   ^       ^ USER SPACE TOOLS ^           ^
           +-------|-------|------------------|-- --------|----+
                   v       v                  v           |
                +--------------+       +----------------+ |
                |              |       |                | |
                | ovs-vswitchd | <---> |  ovsdb-server  | |
                |              |       |                | |
                +--------------+       +----------------+ |
                      ^     USER SPACE DAEMONS            |
           +----------|-----------------------------------|----+
                      v        KERNEL SPACE               v
                +------------------------------------------+
                |                                          |
                |                  datapath                |
                |                                          |
                +------------------------------------------+

datapath – openvswitch_mod.so 當 ovs 以 kernel 模組運作時在核心中的單元,主要處理在核心交換封包到各介面的工作。datapath 應該也能當作 vswitch 在 kernel 中的 instance,可以有好幾個 datapath 。

USER SPACE DAEMONS – 開啟 ovs 需要啟動的兩個背景程式

  • ovsdb-server:用來儲存所有 ovs 設定資料的簡易資料庫,設定完會看情況通知 datapath(kernel)同步狀態,統計資料也會存在這 。所有能設定的欄位跟解釋都在這份文件內。
  • ovs-vswitchd:用來跟 openflow 控制器溝通與 ovsdb 溝通。可以讓你設定你的 vswitch 要跑在什麼模式。

USER SPACE TOOLS:

  • ovs-vsctl : 對 ovsdb 操作,操作指令比較具有語意,會幫你轉化成 ovsdb 看的懂的語法,例如建立 bridge、指定 bridge port 的對應、設定 Bridge Port Interface etc
  • ovs-dpctl : 管理 datapath 的工具,大部分資訊都是透過 netlink 反應出 datapath 目前的狀態,也可以直接操作 datapath 中目前的 flow。
  • ovs-ofctl : openflow switch 管理工具,可以操作與 openflow 相關的設定,是設定 ovs-vswitchd 的不是 datapath 的。在這裡設定一些靜態的 flow 之後會被轉化更實體的 flow 同步到 datapath 中。例如預設的 flow 是 rule=*,action=normal,就是把 ovs-vswitchd 當成一個 learning switch。設了 controller 以後就是讓 flow 再間接去問控制器,再從控制器產生 flow 存放到 ovs-vswitchd 內,ovs-dpctl 跟 ovs-ofctl 都可以用 dump-flows 印 flows 出來看 。
  • ovs-appctl : ovs-vswithd 的管理工具,可以跟 ovs-vswitchd 程序溝通,所以要指定的是 ovs-vswitchd 的 pid。例如可以用來印出 forwarding table。

找到畫這圖的有趣的軟體:http://www.asciiflow.com/

linux pipe read

linux 用管線可以讓指令互相搭配完成很多複雜的工作,只是我不太會用。最常用的是

$ cat /var/log/httpd/access_log |less 
$ rpm -qa|grep kernel

雖然可以直接 less 但是我還是比較習慣先 cat 出來,因為我覺得 cat 的工作是印字 less 是幫我可以翻頁。

$ less /var/log/httpd/access_log 

如果有些指令是會不停的印出字來,像是 ping 一樣,這樣要怎麼用管線來跟他的每一次更新互動呢?其實原始的想法是我要怎麼取到每次 ping 的時間,他就一直更新阿~或者說要怎麼把他的結果轉存做處理,其實有很多程式是寫成這種樣子的~所以找到這個方法:

$ ping google.com | while read pong; do echo "$(date): $pong"; done

管線丟給一直跑迴圈的 read 他會幫忙一直讀出每次的內容,然後我們就可以在這裡動手腳了。另外一個例子,我自己亂寫的,只是 pidstat 跟 iostat 都有類似的特性可以以幾秒為單位輸出

$ iostat -hmc 1|while read pong;do echo $pong|tr -d "\n";done

debian non-free firmware adventure

debian 的安裝光碟裡面是去除了所有版權問題的驅動,因此如果遇到安裝時找不到驅動的問題,可以到官網下載這些 non-free firmware 透過 usb 來讀取這些韌體,可能是要放在 firmware 的資料夾下讓他掃瞄吧。

那如果我只有光碟機勒,不就很麻煩嗎?其實可以自己製作一個包含 non-free 驅動的 iso,透過像是 magic iso 作為 iso 編輯器,將下載來的 DVD 打開,把抓下來的 firmware deb 都放到光碟內原本是空的 firmware 資料夾內,將 iso 存檔。就會得到一份…non-free 的安裝光碟了,接下來的安裝就會很順利了。

需注意編輯 iso 軟體的軟體最好要支援可以設定 bootable 的,否則放進去結果光碟不能開機也是瞭然阿~免費軟體的話 free iso creater 好像支援吧,只是沒辦法直接編輯 iso。

這次遇到可能需要編譯 bnx2 的 driver 的情況,套件是 firmware-bnx2 ,網卡是 Broadcom NetXtremeII 5706 用到的韌體是
* Broadcom NetXtremeII 5706/5708 firmware (mips), version Linux 2.6.32 (bnx2/bnx2-mips-06-5.0.0.j3.fw)
沒什麼概念,不知道從哪裡開始, 就去 broadcom 官網抓最新的 driver 下來自己編譯,make KVER=xxx 蠻順利就過了,只是開機時寫說

bxn2: Can’t load firmware file “bnx2/bnx-mips-06-6.2.1.fw”

檢查一下 /lib/firmware/bnx2 資料夾是真的沒有這個版本( 6.2.1) 檔,跟 debian  6.0.4 用到 fw 檔不太一樣,apt-get 可以用以下指令來抓原始碼來參考看,裡面看起來都只有一些 firmware 二進制檔

$ apt-get source firmware-bnx2

這才找到原本 linux kernel 本來就有這個 driver 跟 firmware 的各種不同版本了 。就直接從 linux kernel 抓正確對應的版本下來放到 /lib/firmware 了。結果重開機還是有同樣的錯誤,才發現只要更新一下 ramfs 好像就可以了?!詳細原理還不太清楚…

$ update-initramfs -u

另外可以用以下指令來檢查 module 裡面的 fw ?! ,原生 debian non-free bnx2 版本可以看到很多 fw 結果自己編的版本卻不行,不知道這是在幹麼的阿阿~

filename: /lib/modules/2.6.32-5-amd64/kernel/drivers/net/bnx2.ko
firmware: bnx2/bnx2-rv2p-09ax-5.0.0.j3.fw
firmware: bnx2/bnx2-rv2p-09-5.0.0.j3.fw
firmware: bnx2/bnx2-mips-09-5.0.0.j3.fw
firmware: bnx2/bnx2-rv2p-06-5.0.0.j3.fw
firmware: bnx2/bnx2-mips-06-5.0.0.j3.fw

慘考資料:

http://forum.proxmox.com/threads/8303-bnx2-Can-t-load-firmware-file

vmware nested ESXi

ESXi 5 開始支援在 vm 裡面跑 vm 只是在新增 vm 的時候 OS 沒有辦法選 ESXi,只能在修改的時候才改 OS type,這個選項會影響到 vm 內 cpu 的支援,一定要改成 ESXi 才能在裡面跑 vm。

1.
先要把 vSphere host 的此檔案增加一行
/etc/vmware/config
vhv.allow = “TRUE”
2.
CLUSTER 的 EVC 好像會有影響,不太確定為了避免先關閉
disable EVC
3.
HOST 重開機
4.
建立 VM,建立完以後再從設定把 OS 改成 ESXi,如下圖

5.
在 vm 內輸入 kvm-ok 說你現在是在正確的狀態,否則就是上述幾點有地方需要再確認,在 vm 內安裝作業系統例如 ubuntu,裝 qemu、kvm、libvirt-bin、virt-manager

6.
用 virt-manger 安裝 nested-vm ,這邊要注意的是放入光碟後可能不會很順利的進入安裝畫面,cpu 會滿載而且畫面一直黑掉沒反應,要一直持續亂按 enter 就會進去安裝畫面了…。會讓人以為壞掉的慘況如下~

7.
用 bridge 把 KVM 網路設好以後網路還是有問題,nested-vm 會沒辦法上網。現象是當 nested-vm 發出廣播,目標主機回應的封包沒辦法透過 vmware 進到 nested-vm 裡面,應該是 vmware vswitch 設計上沒有考量到這種現象,可能他不是單純的 learning swtich。所以把 vmware 的 vm 網卡所在的 port group 改成 promisc~就可以運作了~只是 host 的封包就會流竄到 vswitch 內了。

參考
http://www.vpsee.com/2012/02/how-to-run-kvm-nested-vms-on-vmware-esxi/ – how-to-run-kvm-nested-vms-on-vmware-esxi
http://communities.vmware.com/message/2021380 – ESXi 5 and nested VM’s
http://communities.vmware.com/community/vmtn/bestpractices/nested – 官方討論