跳轉到主要內容
工程的博客

改善供應鏈需求預測的新方法

細粒度的需求預測與因果因素

2020年3月26日 工程的博客

分享這篇文章

通過這篇文章快速鏈接筆記本引用。

組織正在迅速擁抱細粒度的需求預測

越來越多的零售商和消費品製造商尋求改善他們的供應鏈管理來降低成本,釋放營運資本為omnichannel創新和創建一個基金會。消費者購買行為的變化將供應鏈麵臨新的壓力。發展更好的理解通過需求預測消費者需求被認為是一個好的起點對於大多數的這些努力對產品和服務的需求驅動決定勞動、庫存管理、供應和生產計劃,貨運和物流和許多其他領域。

人工智能前沿麥肯錫公司強調,10 - 20%改善零售供應鏈預測的準確性可能產生庫存成本減少5%和2 3%的收入增長。傳統的供應鏈預測工具並沒有帶來預期的結果。索賠的32%的行業平均水平不準確在零售商的供應鏈需求預測,甚至溫和的潛在影響預測的改進對於大多數零售商是巨大的。因此,許多組織正在遠離預包裝的預測方案,探討如何將需求預測技能內部和回顧過去的做法破壞預測精度的計算效率。

這些努力的重點是一代的預測在一個好的層麵的時間和位置/產品分級粒度。精密需求預測有可能影響需求的捕獲模式更接近的水平,需求必須得到滿足。過去一個零售商可能預測短期需求類的產品在市場層麵或分布水平,一個月或一周期間,然後用預測的值分配單位的特定產品類應放置在一個給定的存儲和天,精密需求預測允許預測構建更本地化的動態模型,反映了特定的產品在一個特定的位置。

精密需求預測帶來的挑戰

如精密需求預測聽起來令人興奮,也有許多挑戰。首先,通過遠離總預測,預測模型和預測的數量必須產生爆炸。所需的加工水平由現有的預測工具要麼是高不可攀,也大大超過服務窗口的這些信息是有用的。這種限製會導致企業的數量上做出權衡類別正在處理,或穀物的水平分析。

在之前的檢查博客,Apache火花可以用來克服這一挑戰,允許模型並行化工作及時、高效的執行。磚等原生雲平台上部署時,可以快速分配計算資源,然後釋放,使這Beplay体育安卓版本項工作的成本在預算之內。
第二和更加困難克服麵臨的挑戰是理解,需求模式中存在的總檢查數據時可能不會出現在更細的粒度層次上。套用亞裏士多德,整個往往會大於各部分的總和。當我們搬到較低層次的細節在我們的分析中,模式更容易建模在更高級別的粒度可能不再可靠,使生成的預測技術適用的上級更具挑戰性。這個問題的上下文中預測指出,許多從業者一路回亨利·賽爾在1950年代。

當我們接近事務的粒度級別,我們還需要考慮外部因果因素影響個人客戶需求和購買決策。總的來說,這些可能是反映在平均水平,發展趨勢和季節性時間序列,但在細粒度的水平,我們可能需要將這些直接進入我們的預測模型。

最後,搬到更細的粒度層次上增加了我們的數據結構的可能性將不允許使用傳統的預測技術。移動事務糧食越近,我們越高可能性,我們將需要解決時間的不活動在我們的數據。在這個級別的粒度,我們的因變量,尤其是在處理計數銷量等數據,可能需要在偏態分布,不服從簡單的轉換,可能需要使用預測技術在許多數據科學家的舒適區。

訪問曆史數據

有關詳細信息,請參閱數據準備筆記本

為了檢驗這些挑戰,我們將利用公共訪問曆史數據從紐約自行車共享計劃,也被稱為花旗自行車紐約。花旗自行車紐約公司承諾幫助人們,“解鎖一輛自行車。紐約解鎖。“服務允許人們去任何超過850個不同的整個紐約地區和租自行車租賃位置。公司擁有超過13000的庫存自行車計劃增加到40000。花旗自行車超過100000用戶每天近14000人騎。

花旗自行車紐約是重新分配自行車從他們離開,他們預測未來的需求。花旗自行車紐約市有一個挑戰,是類似於零售商和消費品企業處理日常。我們如何最好的預測需求分配資源的地區嗎?如果我們低估了需求,我們小姐收入機會和潛在的傷害客戶的情緒。如果我們高估了需求,我們有多餘的庫存自行車被閑置。

這個公開的數據集提供了信息在每個月底之前所有的自行車出租回到程序的《盜夢空間》在2013年年中。自行車旅行曆史數據確定確切的時間是從特定的出租車站和租自行車的時間返回到另一個出租車站。如果我們把站在紐約花旗的自行車項目是商店的起始位置和考慮租賃交易,我們有一些密切近似一個漫長而詳細的交易曆史我們可以生產預測。

作為這個練習的一部分,我們需要識別外部因素納入我們的建模工作。我們將利用假期事件以及曆史和預測天氣數據外部影響力。為假期數據集,我們隻會確定標準假期從2013年至今使用假期圖書館在Python中。天氣數據,我們將采用計時提取物視覺交叉,一個受歡迎的天氣數據聚合器。

花旗自行車紐約和視覺交叉數據集的條款和條件,禁止直接共享他們的數據。那些希望重建我們的結果應該訪問數據提供者的網站,審查他們的條款和條件,和下載他們的數據集環境在一個適當的方式。我們將提供所需的數據準備邏輯將這些原始數據資產轉換為我們分析中使用的數據對象。

檢查事務數據

有關詳細信息,請參閱筆記本探索性分析

截至2020年1月,紐約花旗自行車自行車分享項目包括864活躍站操作在紐約市區,主要在曼哈頓。僅在2019年,超過400萬的租金是由客戶提供多達近14000租金在高峰期,發生。beplay体育app下载地址

樣品銷售數據可視化對花旗自行車紐約,說明需求在出租車站。

程序的開始以來,我們可以看到出租的數量增加了。一些這種增長可能是由於增加自行車的使用,但這似乎是與整個站網絡的擴張。

數據可視化描述增加Citibike紐約租賃需求,利用2013年和2020年之間。
數據可視化描述增加Citibike紐約租賃需求,利用2013年和2020年之間。

規範租賃網絡中的活躍站的數量表明,客流量增長per-station基礎上慢慢流逝了在過去的幾年裏我們可以考慮稍微線性上升趨勢。

數據可視化描述增加Citibike紐約per-station客流量在2013和2020之間

使用這個租金歸一化值,客流量似乎遵循一個明顯的季節性模式,在春天,夏天和秋天,然後把冬天外麵的天氣變得不那麼有利於騎自行車

數據可視化描述Citibike紐約租賃需求的季節性2013年到2020年

他的模式似乎密切跟蹤模式的最大溫度(華氏度)的城市。

數據可視化顯示更高的溫度之間的相關性和需求增加Citibike紐約自行車出租。

雖然很難單獨月客流量從模式溫度,降雨量(平均每月英寸)鏡像這些模式不那麼容易

數據可視化每月平均降雨量說明了關聯困難天氣Citibike紐約租賃需求。

檢查每周的周六和周日客流量確定為1和模式識別為7,看起來紐約人使用自行車通勤設備,一個模式在許多其他的自行車共享項目。

數據可視化Citibike紐約自行車白天客流量的星期顯示通勤模式利用率與許多其他的自行車共享項目。

分解這些客流量模式的小時的一天,我們看到不同的工作日模式,在標準的通勤時間客流量峰值。在周末,模式表明更悠閑的利用程序,支持我們的假說。

Citibike紐約自行車客流量的數據可視化顯示小時天租賃活動發生的小時的日夜。

一個有趣的假期模式,不管他們的天的星期,顯示消費模式,大致模擬周末使用模式。假期可能會造成的偶然發生erraticism這些趨勢。不過,似乎支持的圖表,確定假期產生一個可靠的預測是很重要的。

數據可視化Citibike紐約自行車旅遊客流量的小時的天,表明利用模式大致模仿周末使用。

總的來說,每小時的數據似乎表明,紐約真的是不夜城。在現實中,有許多站,有一大部分的時間在此期間不租自行車。

Citibike紐約自行車客流量的數據可視化的個人電台數量記錄1小時的白天不活動說明難以使用傳統方法預測需求。

這些差距在活動時可以有問題試圖產生一個預測。從小時到4小時間隔,在個人站經驗沒有句點的數量租賃活動大幅下降雖然仍有許多電台不活躍在這個時間段。

Citibike紐約自行車客流量的數據可視化的個人電台數量記錄4個小時的白天不活動說明了難以使用傳統方法預測需求。

而不是逃避問題的不活躍的時期甚至邁向更高層次的粒度,我們將嚐試讓每小時的預測水平,探索另一種預測方法可以幫助我們如何處理這個數據集。As forecasting for stations that are largely inactive isn’t terribly interesting, we’ll limit our analysis to the top 200 most active stations.

預測自行車共享租賃與Facebook的先知

在最初試圖預測自行車出租在per-station層麵,我們利用Facebook的先知流行的Python庫,時間序列預測。模型配置與日常探索一個線性增長模式,每周和每年的季節性模式。時期與節日相關的數據集也發現這樣反常行為在這些日期不會影響平均趨勢和季節性模式檢測算法。

使用擴展模式記錄在前麵引用的博文,模型訓練最活躍的200個車站和36小時為每個生成的預測。總的來說,模型的均方誤差(RMSE) 5.44平均平均相對誤差(日軍)為0.73。(新鮮感實績調整為日軍1計算。)

這些指標表明預測模型做一個相當不錯的租金,但失蹤時每小時租賃利率走高。可視化為個人站銷售數據中,您可以看到這個圖形在這個圖表等站518年E 39聖& 2大街,有4.58和0.69的日軍的RMSE:

有關詳細信息,請參閱時間序列的筆記本。

數據可視化顯示的限製使用Facebook先知預測模型配置為探索一個線性增長模式預測本地化需求。模型做得相當好地預測個別Citibike紐約租賃出租車站但開始想念當每小時租賃利率走高。

然後模型調整將溫度和降水作為解釋變量。集體,結果預測的RMSE 5.35和0.72的日軍。非常輕微的改善時,模型仍難以收拾的大幅波動在車站客流量發現水平,再次證明站518的4.51和0.68的日軍的RMSE:

有關詳細信息,請參閱解釋變量的時間序列的筆記本。
數據可視化的一個Facebook先知預測模型配置為一個線性增長模式,探索與調整將天氣作為解釋變量。非常輕微的改善時,模型仍難以拾起大幅波動在客流量發現Citibike紐約站的水平。

這種模式的建模難度更高的值在兩個時間序列模型典型的有一個處理數據泊鬆分布。在這種分布,我們將有大量的值在平均的長尾價值上麵。在另一邊的平均,零離開數據傾斜的地板上。今天,Facebook先知預計數據正態(高斯)分布但計劃討論了合並的泊鬆回歸。

替代的方法來預測供應鏈的需求

然後我們會如何進行生成預測這些數據呢?一個解決方案,因為Facebook的看護人先知正在考慮,是利用泊鬆回歸功能的背景下,傳統的時間序列模型。雖然這可能是一個很好的方法,它不是廣泛記錄所以解決這個我們自己再考慮其他技術為我們的需求可能不是最好的方法。

另一個潛在的解決方案是模型的規模非零值和頻率發生的新鮮感。每個模型的輸出可以組裝預測相結合。被稱為Croston的方法,這個方法是最近發布的支持croston Python庫而另一個數據科學家實現了自己的函數為它。不過,這並不是一種廣泛采用的方法(盡管技術可以追溯到1970年代)和我們的偏好是探索更多的東西開箱即用的

鑒於這種偏好,隨機森林回歸量似乎相當多的意義。決策樹,在一般情況下,不施加相同的限製數據分布統計方法。預測變量的值的範圍,這樣它可能意義將租賃使用類似一個平方根變換之前訓練模型,但即使這樣,我們可能會看到算法的執行沒有它。

利用這個模型,我們需要工程師幾個特性。很明顯的探索性分析,有很強的季節性模式的數據,這兩個年度,每日和每周的水平。這使我們提取年、月、日的周和小時的特性。我們可能還包括一個標誌來度假。

隻使用一個隨機森林回歸量和time-derived特性,我們到達一個總體RMSE 3.4和0.39日軍。站518日軍和RMSE值是3.09和0.38,分別為:

有關詳細信息,請參閱顳筆記本。

通過利用降水和溫度數據結合這些相同的時間特性,我們能夠更好的(但不完全)地址的租賃價值就越高。RMSE站518下降到2.14和0.26的日軍。總的來說,RMSE下降到2.37,日軍0.26表明天氣數據是有價值的預測對自行車的需求。

看到天氣與時間和隨機森林功能的筆記本。

數據可視化的一個Facebook先知預測模型(Citibike紐約)配置為探索一個線性增長模式,調整使用一個隨機森林回歸量和time-derived特性。

影響的結果

需求預測在細的粒度級別可能需要我們不同的思考方法建模。外部影響可能是安全考慮總結在高層時間序列模式可能需要更明確納入我們的模型。隱藏在數據分布模式總體層麵可能會變得更容易暴露需要變化的建模方法。在這個數據集,這些挑戰是最好解決的每小時天氣數據和遠離傳統的時間序列技術轉向一個算法使得更少的假設我們的輸入數據。

可能有許多其他外部影響力和算法值得探索,當我們沿著這條路,我們可能會發現,這些工作為某個子集的數據比別人。我們也可能發現新的數據到達時,技術,之前可能需要放棄工作和新技術。

我們看到一個共同的模式與客戶探討精密需求預測是多種技術的評估與每個訓練和beplay体育app下载地址預測周期,我們可能描述為一個自動化模型烘烤大賽。在烘烤大賽輪,模型產生最好的結果對於一個給定的數據子集的贏得了一輪與每個子集能夠決定自己的模型類型。最後,我們希望確保我們表現好的數據科學數據是否正確設置與我們使用的算法,但在一篇又一篇的文章指出,並不總是一個問題隻有一個解決方案和一些可能一次比他人更好地合作。我們今天仍在使用的平台的力量像Apache火花和磚是我們獲得計算能力探索這些路徑和提供最好的解Beplay体育安卓版本決方案,我們的業務。

額外的零售/ CPG和需求預測資源

免費試著磚

相關的帖子

看到所有工程的博客的帖子
Baidu
map