09_EM算法

  今天是2020年3月5日星期四。預計開學時間不會早於四月初,真是好消息,可以有大把的時間整理知識點(實際上發文章的時間都6月6號了,希望9月份能開學啊,不耽誤找工作~)。每次導師找,整個人會變的特別煩躁,煩躁加不安,其它事情一點都做不下去,焦慮。改小論文這幾天耽誤了一些時間,查了些EM算法的例子,怎樣理解這個算法呢?通過這周的學習,覺得數學公式有點唬人,但卻是理解該算法最好的形式。

  剛開始對這個算法一無所知,通過知乎、CSDN看資料,看白板視頻,看講解例子。越看例子越覺得負擔重,因為要先把例子理解了,再去理解這個知識點。例子不能徹底理解,知識點也走不下去,倒不如一遍一遍的看數學公式。看完了公式,再去看例子,朦朦朧朧的就懂了。之後再去看白板視頻,絕對是不一樣的體驗。

  先看別人的視頻,然後自己去推導公式,你會覺得困難摸不到頭腦;先自己去推導公式,再去看別人視頻,你會覺得心曠神怡一目瞭然。第一種做法,往往看視頻的時候就是懵懵噠,抓不住別人講述的重點;第二種做法,類似於先學會了九陽神功,再去和別人切磋武藝。初心是將《統計學習方法》這本書做詳細的心得筆記,現在有點鬆動,希望能堅持下去。

 GitHub:https://github.com/wangzycloud/statistical-learning-method

 EM算法

引入

  EM算法應該作為一種通用的求解方法,用於含有隱變量的概率模型參數的極大似然估計。拆開來看,這句話是應用在概率模型上的;用來估計概率模型的參數;類似於極大似然估計;求解的是含有隱變量的概率模型。那麼問題來了,什麼是該有隱變量的概率模型?概率模型是什麼樣子?極大似然估計?該方法是怎麼進行計算的呢?

  通常來講,EM算法是一種迭代算法,每次迭代由兩步組成:E步,求期望;M步:求極大,所以該算法被稱為期望極大算法。說該算法可以作為一種通用的求解方法,原因在於:該算法不是NBM、LR、SVM這類解決相應場景的模型,而是可以用於求解含有隱變量概率模型的參數估計。

  提到模型,腦子里第一印象有判別模型、生成模型。這裏的概率模型自然和判別模型、生成模型不在同一個層次。在我的理解里,概率模型是類似於樸素貝恭弘=叶 恭弘斯算法這種,用概率來表示最後的分類標準;而不是感知機、SVM這種利用確信度來表達分類結果的模型。再考慮一下樸素貝恭弘=叶 恭弘斯算法,特徵向量里的隨機變量X,以及表示類別的隨機變量Y,都是可以被觀測到變量。在所有隨機變量都可以觀測到的情況下,我們可以利用極大似然估計來求解模型的參數。對於含有隱變量的概率模型,要如何求解呢?含有隱變量意味着不能觀測到數據的全部狀況,也就沒有辦法直接利用極大似然估計來求解。

  現在看到的EM算法,就是一種求解含有隱變量的概率模型參數的極大似然估計方法。

EM算法

  書本上三硬幣模型,挺好的~代碼已整理到github中,實際上就是把書本公式用代碼實現出來…難度不大。

   文中提到,該問題沒有解析解,只有通過迭代的方法進行求解。仔細觀察一下公式(9.4),log(x)作用在公式(9.3)上,很明顯log連乘可以變成連加,但連加式子中的每個項仍然是連加式。好像是因為這個原因,就無法得到解析解了。個人對數學不感冒,只能硬性的記住“不容易求解析解”這點,至於原因,實在是搞不懂啊。雖然無法得到解析解,但我們可以通過EM算法求解,大致步驟如下:

   一般的,用Y表示觀測隨機變量的數據,Z表示隱隨機變量的數據,Y和Z連在一起稱為完全數據,觀測數據Y又稱為不完全數據。假設給定觀測數據Y,其概率分佈是P(Y|θ),其中θ是需要估計的模型參數,那麼不完全數據Y的似然函數是P(Y|θ),對數似然函數L(θ)=logP(Y|θ),假設Y和Z的聯合概率分佈是P(Y,Z|θ),那麼完全數據的對數似然函數是logP(Y,Z|θ)。

  EM算法通過迭代求解L(θ)=logP(Y|θ)的極大似然估計,每次迭代由兩個步驟:E步,M步組成。

  文中對Q函數做了具體解釋:

   關於EM算法的幾點說明,應該挺好理解的吧。步驟(1),迭代求解的方式需要一步步接近極值,是在某個解的基礎上,進一步求解。在最開始的時候,初值是任意選擇的,並且正是因為初值任意選擇,容易陷入局部極值,也就是對初值的選擇非常敏感(對比一下梯度下降的過程)。步驟(2),我們要清楚,求解的對象是變元參數θ。步驟(3),極大化的過程,詳見下圖~(θ,L(θ))圖像。步驟(4),迭代停止條件。

  EM算法的導出、收斂性,以及推廣詳見下圖吧~搞了四五天,弄了個流程…

GMM高斯混合模型

   書中公式一大堆,不太友好,手寫代碼的過程,就是把書本公式復現了一遍。難度不大,我認為需要先了解GMM模型是啥,再通過例子,熟悉一下計算過程,就可以掌握了。

  還是從生成數據的角度看,由GMM模型生成一個數據,是要根據一個普通的多項式分佈αk,來選擇第k個高斯分佈,分兩步生成數據。但是,這裏獲得的數據,並不知道來自第幾個αk,這就是隱變量了。

   對於高斯混合模型的參數估計,可以通過EM算法求解。

  1.明確隱變量,寫出完全數據的對數似然函數。

  2.EM算法的E步:確定Q函數。

  3.確定EM算法的M步。

  具體公式(9.26)-公式(9.32)就不一一摘錄了,github已復現。算法描述如下:

  本節整理的內容有些水…

代碼效果

 

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

網頁設計公司推薦不同的風格,搶佔消費者視覺第一線

※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

南投搬家公司費用需注意的眉眉角角,別等搬了再說!

※教你寫出一流的銷售文案?

※回頭車貨運收費標準

※別再煩惱如何寫文案,掌握八大原則!

全球最大豬肉加工商因染疫關廠 警告肉類恐短缺

摘錄自2020年4月13日中央社報導

全球最大豬肉加工商史密斯菲爾德食品公司(Smithfield Foods)今(12日)指出,因為有數百員工感染武漢肺炎,將無限期關閉美國的一家豬肉工廠。這家公司也警告,疫情大流行期間可能出現肉類供應短缺。

美國南達科他州州長諾埃姆(Kristi Noem)昨天表示,設在南達科他州蘇瀑市(Sioux Falls)的史密斯菲爾德食品公司豬肉工廠,有238名員工感染2019冠狀病毒疾病(COVID-19,武漢肺炎),占全州確診總數的55%。

諾埃姆與蘇瀑市(Sioux Falls)市長譚哈肯(Paul TenHaken)建議,史密斯菲爾德食品公司應關閉發生疫情的工廠至少兩週。這座工廠約有3700員工,是全美最大豬肉加工廠之一,占美國豬肉產量的4%至5%。

生活環境
國際新聞
豬肉
加工
疫情下的食衣住行
武漢肺炎
食品安全

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

※別再煩惱如何寫文案,掌握八大原則!

※教你寫出一流的銷售文案?

※超省錢租車方案

※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※回頭車貨運收費標準

奧運再生能源準備不延期 東京主場館的透明太陽能板 滋養草坪又能發電

文:宋瑞文(加州能源特約撰述)

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※別再煩惱如何寫文案,掌握八大原則!

網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

※超省錢租車方案

※教你寫出一流的銷售文案?

網頁設計最專業,超強功能平台可客製化

※產品缺大量曝光嗎?你需要的是一流包裝設計!

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

流氓鄰居!新研究:中國築壩攔水重創湄公河下游國水情

摘錄自2020年4月14日自由時報報導

中國近年積極對鄰國恩威並施,手段繁多,彰顯該國地緣政治方面的野心,最新一份研究指出,中國在湄公河上游瀾滄江築壩攔水的做法,加劇湄公河下游國家越南、泰國、柬埔寨、寮國及緬甸的旱情,進一步重創其經濟。

根據《美國之音》報導,研究人員透過特殊技術建立「表面濕度指數模型」,發現自2012年中國瀾滄江糯扎渡水電站開始運作後,當局又興建了多座大壩,導致該河流自然流量受到很大限制,進而影響下游國家。

這份報告的共同作者,美國「Eyes on Earth」公司獨立研究員貝斯特(Alan Basist)表示,簡而言之,中方的說法就是在雨季時擋水、在旱季放水,試圖穩定生產水電,然而,這次研究卻找到與其說法不符的證據。

貝斯特舉去年的數據為例,2019年湄公河下游水位降至過去半世紀最低點時,上游卻有著高於平均值的表面濕度,代表該處存在高於過往同期自然流量。他說,一過中國攔水區域後,下游的泰國、越南的水平面卻低於平均值,代表中國在上游的限制加劇了下游國家的乾旱。

土地水文
生物多樣性
土地利用
國際新聞
中國新聞
中國
攔水壩
湄公河
水庫

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※教你寫出一流的銷售文案?

※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

※回頭車貨運收費標準

※別再煩惱如何寫文案,掌握八大原則!

※超省錢租車方案

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※推薦台中搬家公司優質服務,可到府估價

美國人忙抗疫 川普悄悄對環境政策上下其手

環境資訊中心外電;姜唯 翻譯;林大利 審校;稿源:ENS

非營利組織「西部優先中心(Center for Western Priorities)」發現,過去一個月,美國人忙著與新冠病毒作戰,川普的內政部一邊悄悄影響環境相關政策制定。自川普簽署第一份緊急新冠病毒法案後一個月,內政部啟動數十項與武漢肺炎(COVID-19)無關的政策行動,取消瀕危野生動植物保護法令,並在全國各地擴大辦理採礦和油氣租約銷售。

西部優先中心列出3月6日川普簽署首份新冠病毒緊急法案後,內政部採取的57項行動,像是34個民意徵詢期被啟動或結束,儘管地方民代和國會多次要求內政部長大衛.伯恩哈特(David Bernhardt)在疫情期間暫停立法程序。

西部優先中心列出3月6日川普簽署首份新冠病毒緊急法案後,內政部採取的57項行動。照片來源:Gage Skidmore(CC BY-SA 2.0)

「美國忙著應付全球性傳染病,但伯恩哈特可沒有忘記油氣和採礦公司付了他多年薪水、交付給他的使命。」西部優先中心執行董事羅卡拉(Jennifer Rokala)說,「看看他在新冠病毒危機惡化時做的事,他拒絕關閉國家公園、無視這對國家公園管理員帶來的危險,也是不意外。」

3月6日以來,美國內政部已完成至少九項對公共和部落土地有永久性影響的行動,包括擴大亞利桑那州和內華達州的硬岩採礦業務,以及撤回麻薩諸塞州Mashpee Wampanoag部落的信託土地。

Mashpee Wampanoag部落在該地區生活超過1萬2000年。由於內政部下印地安事務局的決策,該部落很可能會失去僅存的家園。這個決策嚴重打擊部落主權,影響部落未來和永續性。該部落正在要求國會保護其保留土地,並提出《馬什皮.旺帕諾格部落保留法案》(H.R.312)。

美國內政部還針對《瀕危物種法》,提出削弱弓背鮭(Gila cypha)和波多黎各蘭花保育工作的政策,並取消了北美松雞(Centrocercus urophasianus)保育提案。

儘管石油生產過剩導致全球石油價格暴跌,但美國內政部3月份仍舉行了七次油氣租約銷售。

儘管疫情導致煤炭暫停生產、礦場關閉,煤炭需求也大減,美國內政部仍宣布4月將在科羅拉多州舉行煤炭租約銷售活動。

3月27日,內政部核准在阿拉斯加修建一條會穿過北極門國家公園保護區的私人採礦道路。伯恩哈特之前任職的法律事務所,正是該道路所屬加拿大礦業公司Trilogy Metals的遊說代表。

3月27日,內政部核准在阿拉斯加修建一條會穿過北極門國家公園保護區的私人採礦道路。照片來源:
維基百科/美國漁業與野生動物局

此外,伯恩哈特還拒絕展延第一份新冠病毒法案簽署前,才剛剛開啟的幾個重要民意徵詢期,其中有爭議性的計畫,核准在新墨西哥州查科文化國家歷史公園附近的鑽探活動。新墨西哥州國會代表團和自然保護組織已呼籲伯恩哈特延長民意徵詢期。

內政部土地管理局(Bureau of Land Management)僅在4月6日展延了一個民意徵詢期,讓公眾可以在5月21日之前對影響整個西部北美松雞棲地的六份環境影響聲明草案發表評論。

除了內政部的57項行動之外,美國行政管理和預算局(Office of Management and Budget, OBM)還繼續與油氣公司舉行會議,討論內政部未來的法規制定問題。

3月18日,OMB和內政部官員會見了殼牌、埃克森美孚、康菲石油公司和美國石油學會代表,討論油氣和煤炭公司支付納稅人特許權使用費時,如何對鑽取自公有土地上的產品估價。 

川普政府於2017年試圖廢除歐巴馬時代訂定的法規。該法規關閉了一個漏洞,不再讓企業以低於市價的價格賣煤炭給自己。最後因法院阻止而沒有廢除成功。

Trump Erodes Eco-Protections as Americans Die of Virus DENVER, Colorado, April 7, 2020 (ENS)

As America fought the new coronavirus over the past 30 days, President Donald Trump’s Interior Department rushed through dozens of attacks on the environment, finds a new analysis by the nonprofit Center for Western Priorities. In the month since Trump signed the first emergency coronavirus bill, the Interior Department has taken dozens of policy actions unrelated to COVID-19, removing protections for endangered wildlife, plus expanding mining operations and oil and gas leasing on public lands across the country.

The Center for Western Priorities’ analysis identified 57 separate actions taken by Interior Department agencies since March 6, when President Trump signed the first coronavirus emergency bill.

Those actions include 34 public comment periods that were opened or closed by the Interior Department despite numerous requests from local elected officials and members of Congress that Interior Secretary David Bernhardt suspend rulemakings during the coronavirus pandemic.

“While the country was focused on slowing a global pandemic, Secretary Bernhardt did not lose sight of his singular mission to deliver favors for the oil, gas, and mining companies that paid his salary for years,” commented Jennifer Rokala, executive director at the Center for Western Priorities.

“When you look at the audacious scope of what he was doing as the coronavirus crisis accelerated, it’s no wonder he was so blind to the risk that he created for America’s park rangers by refusing to close park gates,” Rokala said.

Since March 6, Interior has finalized at least nine actions that will have lasting effects on public and tribal lands, including expansions of hardrock mining operations in Arizona and Nevada, and the revocation of tribal trust lands from the Mashpee Wampanoag Tribe in Massachusetts.

The Mashpee Wampanoag have occupied the same region for over 12,000 years. The very tribe that welcomed the Pilgrims in the 1600s is at risk of losing what is left of their homelands due to a determination made by the Bureau of Indian Affairs, a part of the Interior Department.

The decision is a blow to tribal sovereignty and undermines the future and sustainability of the tribal nation. In response, the tribe is asking Congress to protect its reservation lands and has proposed the Mashpee Wampanoag Tribe Reservation Reaffirmation Act (H.R.312).

The Department of the Interior also continued its efforts to undermine the Endangered Species Act, advancing policies that would reduce protections for the humpback chub fish and a Puerto Rican orchid, and eliminating a proposal that would have established protections for the sage-grouse.

In March, the Interior Department held seven oil and gas lease sales, despite a glut of oil production leading to the collapse of global oil prices.

Interior also announced an April coal lease sale in Colorado despite falling coal production and mine closures due to the risk of COVID-19, the dearly respiratory disease caused by the novel coronavirus, as well as low demand for coal.

On March 27, the agency paved the way for a private mining road to be built through Gates of the Arctic National Preserve in Alaska.

Secretary Bernhardt’s former lobbying and law firm, Brownstein Hyatt Farber Schreck, has lobbied the Interior Department to approve the project on behalf of the Canadian mining corporation Trilogy Metals, based in Vancouver.

In addition to the 32 public comment periods opened or closed since March 6, Secretary Bernhardt has refused to extend several key comment periods that opened just prior to the president’s signature on the first coronavirus bill. This includes the controversial plan to allow additional drilling near New Mexico’s Chaco Culture National Historic Park.

New Mexico’s congressional delegation and conservation groups have urged Bernhardt to extend the window for public comment, which opened on February 28th.

The Bureau of Land Management did extend one comment period on April 6, giving the public until May 21 to comment on six draft environmental impact statements that affect sage-grouse habitat across the West.

In addition to the 57 actions taken by the Interior Department, the White House Office of Management and Budget, OMB, also continued to hold meetings with oil and gas companies regarding future rulemakings by the Interior Department.

On March 18, OMB and Interior officials met with representatives of Shell, ExxonMobil, ConocoPhillips, and the American Petroleum Institute regarding a proposed rule on how oil, gas, and coal companies are allowed to value products extracted from public land when paying royalties to taxpayers.

The Trump administration in 2017 attempted to repeal an Obama-era rule that closed a loophole allowing companies to essentially sell coal to themselves at below-market prices, but that repeal was blocked by the courts.

※ 全文及圖片詳見:ENS

環境政策
動物與大環境變遷
武漢肺炎
國際新聞
美國
全球變遷
氣候變遷

作者

姜唯

如果有一件事是重要的,如果能為孩子實現一個願望,那就是人類與大自然和諧共存。

林大利

於特有生物研究保育中心服務,小鳥和棲地是主要的研究對象。是龜毛的讀者,認為龜毛是探索世界的美德。

延伸閱讀

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※超省錢租車方案

※別再煩惱如何寫文案,掌握八大原則!

※回頭車貨運收費標準

※教你寫出一流的銷售文案?

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

網頁設計最專業,超強功能平台可客製化

學者:野火致觀光客減少 有助控制澳洲疫情

摘錄自2020年4月13日中央社報導

一位澳洲學者說,幾個月前的森林大火雖然造成重大傷亡和損失,但減少可能染疫的觀光客到訪,意外地降低2019新型冠狀病毒(COVID-19,武漢肺炎)疫情對澳洲的衝擊。

澳洲國立大學傳染病教授柯里諾(Peter Collignon)說,要是沒有這場災難,澳洲的新型冠狀病毒疫情恐怕一發不可收拾。澳洲觀光及交通業界論壇組織(Tourism and Transport Forum)執行長奧斯蒙(Margy Osmond)表示,早在武漢肺炎疫情爆發之前,澳洲觀光業本就因為森林大火而受到重創。

澳洲衛生部最新的數據顯示,截至澳洲東部標準時間(AEST)13日下午3時止,澳洲2019冠狀病毒疾病確診病例24小時內增加46例,累計達6359例,其中61人死亡。確診人數最多的新南威爾斯州有2863個病例,約占45%。全國有36萬2000多人已接受病毒檢測。

生活環境
國際新聞
澳洲
澳洲野火
地方觀光
控制疫情
武漢肺炎
動物與大環境變遷

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

網頁設計最專業,超強功能平台可客製化

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※回頭車貨運收費標準

※推薦評價好的iphone維修中心

※教你寫出一流的銷售文案?

台中搬家公司教你幾個打包小技巧,輕鬆整理裝箱!

台中搬家公司費用怎麼算?

仰賴自然卻摧毀自然 珍古德:導致病毒大爆發

摘錄自2020年4月14日自由時報報導

世界著名的英國靈長類動物學家珍古德(Jane Goodall)11日於電話訪談中指出,武漢肺炎(COVID-19)的大爆發是由於人類長期以來對自然的漠視和對動物的不尊重。

《法新社》報導,珍古德認為,病毒的大流行從很久以前就被預言了。以砍伐森林為例,動物棲地減少,不同物種被迫靠近,因而互相傳染疾病,久之,當生活空間少到牠們不得已向人類居住地接近時,人類便被傳染。她補充:「當然,野生動物的捕食也是原因之一,特別是中國和非洲。」

她進一步表示,中國禁止野生動物市場是一件好事,「希望是永久性的」,且期待亞洲其他國家能夠跟進。但珍古德也明白,在非洲會相對難以實施該禁令,因為許多民眾賴以為生,「當人們沒有其他管道養活自己和家人時,你不可能直接禁止他做(野生動物買賣)。」

土地水文
土地利用
國際新聞
珍古德
冠狀病毒
災害

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※回頭車貨運收費標準

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※推薦評價好的iphone維修中心

※教你寫出一流的銷售文案?

台中搬家公司教你幾個打包小技巧,輕鬆整理裝箱!

台中搬家遵守搬運三大原則,讓您的家具不再被破壞!

單獨囚禁在水池2年 日本311倖存海豚抑鬱離世

摘錄自2020年4月15日鏡週刊報導

國際動保組織「海豚計畫」(Dolphin project)報導指出,日本寬吻海豚「Honey」於2005年在日本太地町被捕獲,自此生活在千葉線犬吠埼海洋公園僅80平方公尺大的水池中,與另一隻海豚、46隻企鵝及數百種魚類一起生活。

311大地震後面臨觀光衰退和建築物老舊,2008年11月犬吠埼海洋公園被爆出營運困難負債,正尋找買家,去年初終於轉賣,但如今整個園區卻呈現廢棄狀態,也沒有遊客造訪,僅安排員工前來餵食。另一隻海豚於2017年死亡,「Honey」自此單獨每天在這廢棄的水池中游來游去,對習性群居的海豚而言,這無疑是極大的折磨。

動保組織「海豚計畫」曾試圖聯繫買下海豚「Honey」,盼為牠找到合適的居所安享晚年,但為時已晚,3月初「Honey」狀況已經不太好,3月29日牠因阻塞性腸炎,死在待了泰半生的水池。

國際新聞
日本
核災
展示動物
動物福利

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

※如何讓商品強力曝光呢? 網頁設計公司幫您建置最吸引人的網站,提高曝光率!

※綠能、環保無空污,成為電動車最新代名詞,目前市場使用率逐漸普及化

※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

※教你寫出一流的銷售文案?

※別再煩惱如何寫文案,掌握八大原則!

日本大鯢數量急減 雜交問題嚴重 水族館推大鯢布偶提升國民關注

文:宋瑞文

本站聲明:網站內容來源環境資訊中心https://e-info.org.tw/,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

網頁設計一頭霧水該從何著手呢? 台北網頁設計公司幫您輕鬆架站!

網頁設計公司推薦不同的風格,搶佔消費者視覺第一線

※想知道購買電動車哪裡補助最多?台中電動車補助資訊懶人包彙整

南投搬家公司費用,距離,噸數怎麼算?達人教你簡易估價知識!

※教你寫出一流的銷售文案?

※超省錢租車方案

※回頭車貨運收費標準

調優 | Apache Hudi應用調優指南

通過Spark作業將數據寫入Hudi時,Spark應用的調優技巧也適用於此。如果要提高性能或可靠性,請牢記以下幾點。

輸入并行性:Hudi對輸入進行分區默認併發度為1500,以確保每個Spark分區都在2GB的限制內(在Spark2.4.0版本之後去除了該限制),如果有更大的輸入,則相應地進行調整。我們建議設置shuffle的併發度,配置項為hoodie.[insert|upsert|bulkinsert].shuffle.parallelism,以使其至少達到input_data_size/500MB。

Off-heap(堆外)內存:Hudi寫入parquet文件,需要使用一定的堆外內存,如果遇到此類故障,請考慮設置類似spark.yarn.executor.memoryOverheadspark.yarn.driver.memoryOverhead的值。

Spark 內存:通常Hudi需要能夠將單個文件讀入內存以執行合併或壓縮操作,因此執行程序的內存應足以容納此文件。另外,Hudi會緩存輸入數據以便能夠智能地放置數據,因此預留一些spark.memory.storageFraction通常有助於提高性能。

調整文件大小:設置limitFileSize以平衡接收/寫入延遲與文件數量,並平衡與文件數據相關的元數據開銷。

時間序列/日誌數據:對於單條記錄較大的數據庫/ nosql變更日誌,可調整默認配置。另一類非常流行的數據是時間序列/事件/日誌數據,它往往更加龐大,每個分區的記錄更多。在這種情況下,請考慮通過.bloomFilterFPP()/bloomFilterNumEntries()來調整Bloom過濾器的精度,以加速目標索引查找時間,另外可考慮一個以事件時間為前綴的鍵,這將使用範圍修剪並顯着加快索引查找的速度。

GC調優:請確保遵循Spark調優指南中的垃圾收集調優技巧,以避免OutOfMemory錯誤。[必須]使用G1 / CMS收集器,其中添加到spark.executor.extraJavaOptions的示例如下:

-XX:NewSize=1g -XX:SurvivorRatio=2 -XX:+UseCompressedOops -XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintTenuringDistribution -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof

OutOfMemory錯誤:如果出現OOM錯誤,則可嘗試通過如下配置處理:spark.memory.fraction = 0.2,spark.memory.storageFraction = 0.2允許其溢出而不是OOM(速度變慢與間歇性崩潰相比)。

以下是完整的生產配置

spark.driver.extraClassPath /etc/hive/conf
spark.driver.extraJavaOptions -XX:+PrintTenuringDistribution -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime -XX:+PrintGCTimeStamps -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof
spark.driver.maxResultSize 2g
spark.driver.memory 4g
spark.executor.cores 1
spark.executor.extraJavaOptions -XX:+PrintFlagsFinal -XX:+PrintReferenceGC -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintAdaptiveSizePolicy -XX:+UnlockDiagnosticVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof
spark.executor.id driver
spark.executor.instances 300
spark.executor.memory 6g
spark.rdd.compress true
 
spark.kryoserializer.buffer.max 512m
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.shuffle.service.enabled true
spark.sql.hive.convertMetastoreParquet false
spark.submit.deployMode cluster
spark.task.cpus 1
spark.task.maxFailures 4
 
spark.yarn.driver.memoryOverhead 1024
spark.yarn.executor.memoryOverhead 3072
spark.yarn.max.executor.failures 100

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理

【其他文章推薦】

※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

※別再煩惱如何寫文案,掌握八大原則!

※教你寫出一流的銷售文案?

※超省錢租車方案

※廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益

※產品缺大量曝光嗎?你需要的是一流包裝設計!

※回頭車貨運收費標準