MongoDB 透過 lookup pipeline 實踐 Left Join

很久以前寫過一篇基本的 mongodb group 語法的基本介紹,在這些年間也持續跟 mongodb 持續纏鬥無法自拔…,對他又愛又恨,雖然超想拔掉他,但是從用途/功能性上卻無法找到他的取代品。

如今已經面臨要開始用他來 JOIN 了,感覺這毒是越吸越重了..XD 讓我們繼續看下去..

我們今天試著從 3.2 開始 aggregate 新支援的語法 $lookup 搭配 3.6 開始的 lookup pipeline 來解決我們需要 LEFT JOIN 的問題。

Continue reading…

mongodb group by

SQL-to-MongoDB2
目前在日常生活偶爾會使用 mongodb 做一些開發或存一些 log,除了基本的 json query 以外,偶爾需要用到如 mysql 的 group 功能,剛開始覺得好像沒有辦法直接用 query 做很困擾,實際做過一次複雜的 query 以後才發現 mongodb 的彈性實在是強大不少,除了語法不相容要重學以外。

舉一個實際的例子,有一個表存了 web 的 access log,然後想找到哪個頁面(page)最常被存取,按照頁面的存取次序排序,每一個人在一天存取同個頁面多次都只能算一次(不重複的工作階段 in GA),而且要排除特定 IP 不被計算(自己)。

在 SQL 裡面直覺寫出來大概會是這樣:

SELECT page, count(*) count FROM access_log 
WHERE IP != '192.168.1.1' 
GROUP BY page
ORDER BY count DESC
limit 10

雖然簡單,但是這個寫法沒有過濾掉,不重複計算同個人的重複瀏覽,所以直覺也是用子查詢才能解決這個問題。
Continue reading…

datastax Brisk 的故事…

去年(2011)初 Datastax 這間在做 Cassandra 顧問服務的公司,推出了一個 opensource 的整合方案 brisk,主要著力點在 CassandraFS 在 Cassandra 上實作了一層與 hdfs 相容 api 的檔案系統,用以銜接 hadoop 相關的服務 hive、pig、MapReduce。而且還有一個比較漂亮的 web 監控與管理介面 opscenter。
Continue reading…

資料庫擴展

MySQL Cluster 、HBase、Cassandra

該怎麼知道自己的應用適合什麼軟體,自行架設的環境是否有達到想像的能力呢?

那就自行架設測試環境來對這些細節做測試吧!

測試什麼?

硬碟 io、連線承受數、每秒讀取寫入數量。

sysstat:

系統狀況讀取軟體,內有附 iostat 可以測硬碟瞬間讀寫的速度。

MySQL:

http://mysqldatabaseadministration.blogspot.com/2006/08/mysql-benchmarking-1.html

使用 MySQL 5.1 之後內建的 mysqlslap 來模擬大量用戶連線。

./bin/mysqlslap –host=antslab.tw –user=user -p -a –auto-generate-sql-guid-primary –auto-generate-sql-load-type=mix –auto-generate-sql-unique-query-number=5 –auto-generate-sql-unique-write-number=6 –auto-generate-sql-secondary-indexes=4 –concurrency=100 –create-schema=test –auto-generate-sql-execute-number=10011

參數解釋 http://jingstory.com/tag/mysqlslap