原文鏈接:http://www.cnblogs.com/juandx/p/4962089.html
python中對(duì)文件、文件夾(文件操作函數(shù))的操作需要涉及到os模塊和shutil模塊。
得到當(dāng)前工作目錄,即當(dāng)前Python腳本工作的目錄路徑: os.getcwd()
返回指定目錄下的所有文件和目錄名:os.listdir()
函數(shù)用來(lái)刪除一個(gè)文件:os.remove()
刪除多個(gè)目錄:os.removedirs(r“c:\python”)
檢驗(yàn)給出的路徑是否是一個(gè)文件:os.path.isfile()
檢驗(yàn)給出的路徑是否是一個(gè)目錄:os.path.isdir()
判斷是否是絕對(duì)路徑:os.path.isabs()
檢驗(yàn)給出的路徑是否真地存:os.path.exists()
返回一個(gè)路徑的目錄名和文件名:os.path.split()
eg os.path.split(‘/home/swaroop/byte/code/poem.txt’)
結(jié)果:(‘/home/swaroop/byte/code’, ‘poem.txt’)
分離擴(kuò)展名:os.path.splitext()
獲取路徑名:os.path.dirname()
獲取文件名:os.path.basename()
運(yùn)行shell命令: os.system()
讀取和設(shè)置環(huán)境變量:os.getenv() 與os.putenv()
給出當(dāng)前平臺(tái)使用的行終止符:os.linesep Windows使用’\r\n’,Linux使用’\n’而Mac使用’\r’
指示你正在使用的平臺(tái):os.name 對(duì)于Windows,它是’nt’,而對(duì)于Linux/Unix用戶,它是’posix’
重命名:os.rename(old, new)
創(chuàng)建多級(jí)目錄:os.makedirs(r“c:\python\test”)
創(chuàng)建單個(gè)目錄:os.mkdir(“test”)
獲取文件屬性:os.stat(file)
修改文件權(quán)限與時(shí)間戳:os.chmod(file)
終止當(dāng)前進(jìn)程:os.exit()
獲取文件大小:os.path.getsize(filename)
文件操作:
os.mknod(“test.txt”) 創(chuàng)建空文件
fp = open(“test.txt”,w) 直接打開一個(gè)文件,如果文件不存在則創(chuàng)建文件
關(guān)于open 模式:
w 以寫方式打開,
a 以追加模式打開 (從 EOF 開始, 必要時(shí)創(chuàng)建新文件)
r+ 以讀寫模式打開
w+ 以讀寫模式打開 (參見 w )
a+ 以讀寫模式打開 (參見 a )
rb 以二進(jìn)制讀模式打開
wb 以二進(jìn)制寫模式打開 (參見 w )
ab 以二進(jìn)制追加模式打開 (參見 a )
rb+ 以二進(jìn)制讀寫模式打開 (參見 r+ )
wb+ 以二進(jìn)制讀寫模式打開 (參見 w+ )
ab+ 以二進(jìn)制讀寫模式打開 (參見 a+ )
fp.read([size]) #size為讀取的長(zhǎng)度,以byte為單位
fp.readline([size]) #讀一行,如果定義了size,有可能返回的只是一行的一部分
fp.readlines([size]) #把文件每一行作為一個(gè)list的一個(gè)成員,并返回這個(gè)list。其實(shí)它的內(nèi)部是通過(guò)循環(huán)調(diào)用readline()來(lái)實(shí)現(xiàn)的。如果提供size參數(shù),size是表示讀取內(nèi)容的總長(zhǎng),也就是說(shuō)可能只讀到文件的一部分。
fp.write(str) #把str寫到文件中,write()并不會(huì)在str后加上一個(gè)換行符
fp.writelines(seq) #把seq的內(nèi)容全部寫到文件中(多行一次性寫入)。這個(gè)函數(shù)也只是忠實(shí)地寫入,不會(huì)在每行后面加上任何東西。
fp.close() #關(guān)閉文件。python會(huì)在一個(gè)文件不用后自動(dòng)關(guān)閉文件,不過(guò)這一功能沒(méi)有保證,最好還是養(yǎng)成自己關(guān)閉的習(xí)慣。 如果一個(gè)文件在關(guān)閉后還對(duì)其進(jìn)行操作會(huì)產(chǎn)生ValueError
fp.flush() #把緩沖區(qū)的內(nèi)容寫入硬盤
fp.fileno() #返回一個(gè)長(zhǎng)整型的”文件標(biāo)簽“
fp.isatty() #文件是否是一個(gè)終端設(shè)備文件(unix系統(tǒng)中的)
fp.tell() #返回文件操作標(biāo)記的當(dāng)前位置,以文件的開頭為原點(diǎn)
fp.next() #返回下一行,并將文件操作標(biāo)記位移到下一行。把一個(gè)file用于for … in file這樣的語(yǔ)句時(shí),就是調(diào)用next()函數(shù)來(lái)實(shí)現(xiàn)遍歷的。
fp.seek(offset[,whence]) #將文件打操作標(biāo)記移到offset的位置。這個(gè)offset一般是相對(duì)于文件的開頭來(lái)計(jì)算的,一般為正數(shù)。但如果提供了whence參數(shù)就不一定了,whence可以為0表示從頭開始計(jì)算,1表示以當(dāng)前位置為原點(diǎn)計(jì)算。2表示以文件末尾為原點(diǎn)進(jìn)行計(jì)算。需要注意,如果文件以a或a+的模式打開,每次進(jìn)行寫操作時(shí),文件操作標(biāo)記會(huì)自動(dòng)返回到文件末尾。
fp.truncate([size]) #把文件裁成規(guī)定的大小,默認(rèn)的是裁到當(dāng)前文件操作標(biāo)記的位置。如果size比文件的大小還要大,依據(jù)系統(tǒng)的不同可能是不改變文件,也可能是用0把文件補(bǔ)到相應(yīng)的大小,也可能是以一些隨機(jī)的內(nèi)容加上去。
目錄操作:
os.mkdir(“file”) 創(chuàng)建目錄
復(fù)制文件:
shutil.copyfile(“oldfile”,”newfile”) oldfile和newfile都只能是文件
shutil.copy(“oldfile”,”newfile”) oldfile只能是文件夾,newfile可以是文件,也可以是目標(biāo)目錄
復(fù)制文件夾:
shutil.copytree(“olddir”,”newdir”) olddir和newdir都只能是目錄,且newdir必須不存在
重命名文件(目錄)
os.rename(“oldname”,”newname”) 文件或目錄都是使用這條命令
移動(dòng)文件(目錄)
shutil.move(“oldpos”,”newpos”)
刪除文件
os.remove(“file”)
刪除目錄
os.rmdir(“dir”)只能刪除空目錄
shutil.rmtree(“dir”) 空目錄、有內(nèi)容的目錄都可以刪
轉(zhuǎn)換目錄
os.chdir(“path”) 換路徑
Python讀寫文件
1.open
使用open打開文件后一定要記得調(diào)用文件對(duì)象的close()方法。比如可以用try/finally語(yǔ)句來(lái)確保最后能關(guān)閉文件。
file_object = open(‘thefile.txt’)
try:
all_the_text = file_object.read( )
finally:
file_object.close( )
注:不能把open語(yǔ)句放在try塊里,因?yàn)楫?dāng)打開文件出現(xiàn)異常時(shí),文件對(duì)象file_object無(wú)法執(zhí)行close()方法。
2.讀文件
讀文本文件
input = open('data', 'r')
#第二個(gè)參數(shù)默認(rèn)為r
input = open('data')
1
2
3
讀二進(jìn)制文件
input = open('data', 'rb')
1
讀取所有內(nèi)容
file_object = open('thefile.txt')
try:
all_the_text = file_object.read( )
finally:
file_object.close( )
1
2
3
4
5
讀固定字節(jié)
file_object = open('abinfile', 'rb')
try:
while True:
chunk = file_object.read(100)
if not chunk:
break
do_something_with(chunk)
finally:
file_object.close( )
1
2
3
4
5
6
7
8
9
讀每行
list_of_all_the_lines = file_object.readlines( )
1
如果文件是文本文件,還可以直接遍歷文件對(duì)象獲取每行:
for line in file_object:
process line
1
2
3.寫文件
寫文本文件
output = open('data', 'w')
1
寫二進(jìn)制文件
output = open('data', 'wb')
1
追加寫文件
output = open('data', 'w+')
1
寫數(shù)據(jù)
file_object = open('thefile.txt', 'w')
file_object.write(all_the_text)
file_object.close( )
1
2
3
寫入多行
file_object.writelines(list_of_text_strings)
1
注意,調(diào)用writelines寫入多行在性能上會(huì)比使用write一次性寫入要高。
在處理日志文件的時(shí)候,常常會(huì)遇到這樣的情況:日志文件巨大,不可能一次性把整個(gè)文件讀入到內(nèi)存中進(jìn)行處理,例如需要在一臺(tái)物理內(nèi)存為 2GB 的機(jī)器上處理一個(gè) 2GB 的日志文件,我們可能希望每次只處理其中 200MB 的內(nèi)容。
在 Python 中,內(nèi)置的 File 對(duì)象直接提供了一個(gè) readlines(sizehint) 函數(shù)來(lái)完成這樣的事情。以下面的代碼為例:
file = open('test.log', 'r')sizehint = 209715200 # 200Mposition = 0lines = file.readlines(sizehint)while not file.tell() - position < 0: position = file.tell() lines = file.readlines(sizehint)
1
每次調(diào)用 readlines(sizehint) 函數(shù),會(huì)返回大約 200MB 的數(shù)據(jù),而且所返回的必然都是完整的行數(shù)據(jù),大多數(shù)情況下,返回的數(shù)據(jù)的字節(jié)數(shù)會(huì)稍微比 sizehint 指定的值大一點(diǎn)(除最后一次調(diào)用 readlines(sizehint) 函數(shù)的時(shí)候)。通常情況下,Python 會(huì)自動(dòng)將用戶指定的 sizehint 的值調(diào)整成內(nèi)部緩存大小的整數(shù)倍。
file在python是一個(gè)特殊的類型,它用于在python程序中對(duì)外部的文件進(jìn)行操作。在python中一切都是對(duì)象,file也不例外,file有file的方法和屬性。下面先來(lái)看如何創(chuàng)建一個(gè)file對(duì)象:
file(name[, mode[, buffering]])
1
file()函數(shù)用于創(chuàng)建一個(gè)file對(duì)象,它有一個(gè)別名叫open(),可能更形象一些,它們是內(nèi)置函數(shù)。來(lái)看看它的參數(shù)。它參數(shù)都是以字符串的形式傳遞的。name是文件的名字。
mode是打開的模式,可選的值為r w a U,分別代表讀(默認(rèn)) 寫 添加支持各種換行符的模式。用w或a模式打開文件的話,如果文件不存在,那么就自動(dòng)創(chuàng)建。此外,用w模式打開一個(gè)已經(jīng)存在的文件時(shí),原有文件的內(nèi)容會(huì)被清空,因?yàn)橐婚_始文件的操作的標(biāo)記是在文件的開頭的,這時(shí)候進(jìn)行寫操作,無(wú)疑會(huì)把原有的內(nèi)容給抹掉。由于歷史的原因,換行符在不同的系統(tǒng)中有不同模式,比如在 unix中是一個(gè)\n,而在windows中是‘\r\n’,用U模式打開文件,就是支持所有的換行模式,也就說(shuō)‘\r’ ‘\n’ ‘\r\n’都可表示換行,會(huì)有一個(gè)tuple用來(lái)存貯這個(gè)文件中用到過(guò)的換行符。不過(guò),雖說(shuō)換行有多種模式,讀到python中統(tǒng)一用\n代替。在模式字符的后面,還可以加上+ b t這兩種標(biāo)識(shí),分別表示可以對(duì)文件同時(shí)進(jìn)行讀寫操作和用二進(jìn)制模式、文本模式(默認(rèn))打開文件。
buffering如果為0表示不進(jìn)行緩沖;如果為1表示進(jìn)行“行緩沖“;如果是一個(gè)大于1的數(shù)表示緩沖區(qū)的大小,應(yīng)該是以字節(jié)為單位的。
file對(duì)象有自己的屬性和方法。先來(lái)看看file的屬性。
closed #標(biāo)記文件是否已經(jīng)關(guān)閉,由close()改寫
encoding #文件編碼
mode #打開模式
name #文件名
newlines #文件中用到的換行模式,是一個(gè)tuple
softspace #boolean型,一般為0,據(jù)說(shuō)用于print
1
2
3
4
5
6
file的讀寫方法:
F.read([size]) #size為讀取的長(zhǎng)度,以byte為單位
F.readline([size])
#讀一行,如果定義了size,有可能返回的只是一行的一部分
F.readlines([size])
#把文件每一行作為一個(gè)list的一個(gè)成員,并返回這個(gè)list。其實(shí)它的內(nèi)部是通過(guò)循環(huán)調(diào)用readline()來(lái)實(shí)現(xiàn)的。如果提供size參數(shù),size是表示讀取內(nèi)容的總長(zhǎng),也就是說(shuō)可能只讀到文件的一部分。
F.write(str)
#把str寫到文件中,write()并不會(huì)在str后加上一個(gè)換行符
F.writelines(seq)
#把seq的內(nèi)容全部寫到文件中。這個(gè)函數(shù)也只是忠實(shí)地寫入,不會(huì)在每行后面加上任何東西。
file的其他方法:
F.close()
#關(guān)閉文件。python會(huì)在一個(gè)文件不用后自動(dòng)關(guān)閉文件,不過(guò)這一功能沒(méi)有保證,最好還是養(yǎng)成自己關(guān)閉的習(xí)慣。如果一個(gè)文件在關(guān)閉后還對(duì)其進(jìn)行操作會(huì)產(chǎn)生ValueError
F.flush()
#把緩沖區(qū)的內(nèi)容寫入硬盤
F.fileno()
#返回一個(gè)長(zhǎng)整型的”文件標(biāo)簽“
F.isatty()
#文件是否是一個(gè)終端設(shè)備文件(unix系統(tǒng)中的)
F.tell()
#返回文件操作標(biāo)記的當(dāng)前位置,以文件的開頭為原點(diǎn)
F.next()
#返回下一行,并將文件操作標(biāo)記位移到下一行。把一個(gè)file用于for ... in file這樣的語(yǔ)句時(shí),就是調(diào)用next()函數(shù)來(lái)實(shí)現(xiàn)遍歷的。
F.seek(offset[,whence])
#將文件打操作標(biāo)記移到offset的位置。這個(gè)offset一般是相對(duì)于文件的開頭來(lái)計(jì)算的,一般為正數(shù)。但如果提供了whence參數(shù)就不一定了,whence可以為0表示從頭開始計(jì)算,1表示以當(dāng)前位置為原點(diǎn)計(jì)算。2表示以文件末尾為原點(diǎn)進(jìn)行計(jì)算。需要注意,如果文件以a或a+的模式打開,每次進(jìn)行寫操作時(shí),文件操作標(biāo)記會(huì)自動(dòng)返回到文件末尾。
F.truncate([size])
#把文件裁成規(guī)定的大小,默認(rèn)的是裁到當(dāng)前文件操作標(biāo)記的位置。如果size比文件的大小還要大,依據(jù)系統(tǒng)的不同可能是不改變文件,也可能是用0把文件補(bǔ)到相應(yīng)的大小,也可能是以一些隨機(jī)的內(nèi)容加上去。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
http://www.cnblogs.com/allenblogs/archive/2010/09/13/1824842.html
http://www.cnblogs.com/rollenholt/archive/2012/04/23/2466179.html
首先 dfs.replication這個(gè)參數(shù)是個(gè)client參數(shù),即node level參數(shù)。需要在每臺(tái)datanode上設(shè)置。
其實(shí)默認(rèn)為3個(gè)副本已經(jīng)夠用了,設(shè)置太多也沒(méi)什么用。
一個(gè)文件,上傳到hdfs上時(shí)指定的是幾個(gè)副本就是幾個(gè)。以后你修改了副本數(shù),對(duì)已經(jīng)上傳了的文件也不會(huì)起作用。可以再上傳文件的同時(shí)指定創(chuàng)建的副本數(shù)
Hadoop dfs -D dfs.replication=1 -put 70M logs/2
可以通過(guò)命令來(lái)更改已經(jīng)上傳的文件的副本數(shù):
hadoop fs -setrep -R 3 /
查看當(dāng)前hdfs的副本數(shù)
hadoop fsck -locations
FSCK started by hadoop from /172.18.6.112 for path / at Thu Oct 27 13:24:25 CST 2011
....................Status: HEALTHY
Total size: 4834251860 B
Total dirs: 21
Total files: 20
Total blocks (validated): 82 (avg. block size 58954290 B)
Minimally replicated blocks: 82 (100.0 %)
Over-replicated blocks: 0 (0.0 %)
Under-replicated blocks: 0 (0.0 %)
Mis-replicated blocks: 0 (0.0 %)
Default replication factor: 3
Average block replication: 3.0
Corrupt blocks: 0
Missing replicas: 0 (0.0 %)
Number of data-nodes: 3
Number of racks: 1
FSCK ended at Thu Oct 27 13:24:25 CST 2011 in 10 milliseconds
The filesystem under path '/' is HEALTHY
某個(gè)文件的副本數(shù),可以通過(guò)ls中的文件描述符看到
hadoop dfs -ls
-rw-r--r-- 3 hadoop supergroup 153748148 2011-10-27 16:11 /user/hadoop/logs/201108/impression_witspixel2011080100.thin.log.gz
如果你只有3個(gè)datanode,但是你卻指定副本數(shù)為4,是不會(huì)生效的,因?yàn)槊總€(gè)datanode上只能存放一個(gè)副本。
參考:http://blog.csdn.net/lskyne/article/details/8898666
轉(zhuǎn)自:https://www.cnblogs.com/shabbylee/p/6792555.html
由于歷史原因,Python有兩個(gè)大的版本分支,Python2和Python3,又由于一些庫(kù)只支持某個(gè)版本分支,所以需要在電腦上同時(shí)安裝Python2和Python3,因此如何讓兩個(gè)版本的Python兼容,如何讓腳本在對(duì)應(yīng)的Python版本上運(yùn)行,這個(gè)是值得總結(jié)的。
對(duì)于Ubuntu 16.04 LTS版本來(lái)說(shuō),Python2(2.7.12)和Python3(3.5.2)默認(rèn)同時(shí)安裝,默認(rèn)的python版本是2.7.12。
當(dāng)然你也可以用python2來(lái)調(diào)用。
如果想調(diào)用python3,就用python3.
對(duì)于Windows,就有點(diǎn)復(fù)雜了。因?yàn)椴徽損ython2還是python3,python可執(zhí)行文件都叫python.exe,在cmd下輸入python得到的版本號(hào)取決于環(huán)境變量里哪個(gè)版本的python路徑更靠前,畢竟windows是按照順序查找的。比如環(huán)境變量里的順序是這樣的:
那么cmd下的python版本就是2.7.12。
反之,則是python3的版本號(hào)。
這就帶來(lái)一個(gè)問(wèn)題了,如果你想用python2運(yùn)行一個(gè)腳本,一會(huì)你又想用python3運(yùn)行另一個(gè)腳本,你怎么做?來(lái)回改環(huán)境變量顯然很麻煩。
網(wǎng)上很多辦法比較簡(jiǎn)單粗暴,把兩個(gè)python.exe改名啊,一個(gè)改成python2.exe,一個(gè)改成python3.exe。這樣做固然可以,但修改可執(zhí)行文件的方式,畢竟不是很好的方法。
我仔細(xì)查找了一些python技術(shù)文檔,發(fā)現(xiàn)另外一個(gè)我覺(jué)得比較好的解決辦法。
借用py的一個(gè)參數(shù)來(lái)調(diào)用不同版本的Python。py -2調(diào)用python2,py -3調(diào)用的是python3.
當(dāng)python腳本需要python2運(yùn)行時(shí),只需在腳本前加上,然后運(yùn)行py xxx.py即可。
#! python2
當(dāng)python腳本需要python3運(yùn)行時(shí),只需在腳本前加上,,然后運(yùn)行py xxx.py即可。
#! python3
就這么簡(jiǎn)單。
同時(shí),這也完美解決了在pip在python2和python3共存的環(huán)境下報(bào)錯(cuò),提示Fatal error in launcher: Unable to create process using '"'的問(wèn)題。
當(dāng)需要python2的pip時(shí),只需
py -2 -m pip install xxx
當(dāng)需要python3的pip時(shí),只需
py -3 -m pip install xxx
python2和python3的pip package就這樣可以完美分開了。
Sentry權(quán)限控制通過(guò)Beeline(Hiveserver2 SQL 命令行接口)輸入Grant 和 Revoke語(yǔ)句來(lái)配置。語(yǔ)法跟現(xiàn)在的一些主流的關(guān)系數(shù)據(jù)庫(kù)很相似。需要注意的是:當(dāng)sentry服務(wù)啟用后,我們必須使用beeline接口來(lái)執(zhí)行hive查詢,Hive Cli并不支持sentry。
CREATE ROLE Statement
CREATE ROLE語(yǔ)句創(chuàng)建一個(gè)可以被賦權(quán)的角色。權(quán)限可以賦給角色,然后再分配給各個(gè)用戶。一個(gè)用戶被分配到角色后可以執(zhí)行該角色的權(quán)限。
只有擁有管理員的角色可以create/drop角色。默認(rèn)情況下,hive、impala和hue用戶擁有管理員角色。
CREATE ROLE [role_name];
DROP ROLE Statement
DROP ROLE語(yǔ)句可以用來(lái)從數(shù)據(jù)庫(kù)中移除一個(gè)角色。一旦移除,之前分配給所有用戶的該角色將會(huì)取消。之前已經(jīng)執(zhí)行的語(yǔ)句不會(huì)受到影響。但是,因?yàn)閔ive在執(zhí)行每條查詢語(yǔ)句之前會(huì)檢查用戶的權(quán)限,處于登錄活躍狀態(tài)的用戶會(huì)話會(huì)受到影響。
DROP ROLE [role_name];
GRANT ROLE Statement
GRANT ROLE語(yǔ)句可以用來(lái)給組授予角色。只有sentry的管理員用戶才能執(zhí)行該操作。
GRANT ROLE role_name [, role_name]
TO GROUP (groupName) [,GROUP (groupName)]
REVOKE ROLE Statement
REVOKE ROLE語(yǔ)句可以用來(lái)從組移除角色。只有sentry的管理員用戶才能執(zhí)行該操作。
REVOKE ROLE role_name [, role_name]
FROM GROUP (groupName) [,GROUP (groupName)]
GRANT (PRIVILEGE) Statement
授予一個(gè)對(duì)象的權(quán)限給一個(gè)角色,該用戶必須為sentry的管理員用戶。
GRANT
(PRIVILEGE) [, (PRIVILEGE) ]
ON (OBJECT) (object_name)
TO ROLE (roleName) [,ROLE (roleName)]
REVOKE (PRIVILEGE) Statement
因?yàn)橹挥姓J(rèn)證的管理員用戶可以創(chuàng)建角色,從而只有管理員用戶可以取消一個(gè)組的權(quán)限。
REVOKE
(PRIVILEGE) [, (PRIVILEGE) ]
ON (OBJECT) (object_name)
FROM ROLE (roleName) [,ROLE (roleName)]
GRANT (PRIVILEGE) ... WITH GRANT OPTION
在cdh5.2中,你可以委托給其他角色來(lái)授予和解除權(quán)限。比如,一個(gè)角色被授予了WITH GRANT OPTION的權(quán)限可以GRANT/REVOKE同樣的權(quán)限給其他角色。因此,如果一個(gè)角色有一個(gè)庫(kù)的所有權(quán)限并且設(shè)置了 WITH GRANT OPTION,該角色分配的用戶可以對(duì)該數(shù)據(jù)庫(kù)和其中的表執(zhí)行GRANT/REVOKE語(yǔ)句。
GRANT
(PRIVILEGE)
ON (OBJECT) (object_name)
TO ROLE (roleName)
WITH GRANT OPTION
只有一個(gè)帶GRANT選項(xiàng)的特殊權(quán)限的角色或者它的父級(jí)權(quán)限可以從其他角色解除這種權(quán)限。一旦下面的語(yǔ)句執(zhí)行,所有跟其相關(guān)的grant權(quán)限將會(huì)被解除。
REVOKE
(RIVILEGE)
ON (BJECT) (bject_name)
FROM ROLE (roleName)
Hive目前不支持解除之前賦予一個(gè)角色 WITH GRANT OPTION 的權(quán)限。要想移除WITH GRANT OPTION、解除權(quán)限,可以重新去除 WITH GRANT OPTION這個(gè)標(biāo)記來(lái)再次附權(quán)。
SET ROLE Statement
SET ROLE語(yǔ)句可以給當(dāng)前會(huì)話選擇一個(gè)角色使之生效。一個(gè)用戶只能啟用分配給他的角色。任何不存在的角色和當(dāng)前用戶不能使用的角色是不能生效的。如果沒(méi)有使用任何角色,用戶將會(huì)使用任何一個(gè)屬于他的角色的權(quán)限。
選擇一個(gè)角色使用:
To enable a specific role:
使用所有的角色:
To enable a specific role:
關(guān)閉所有角色
SET ROLE NONE;
SHOW Statement
顯示當(dāng)前用戶擁有庫(kù)、表、列相關(guān)權(quán)限的數(shù)據(jù)庫(kù):
SHOW DATABASES;
顯示當(dāng)前用戶擁有表、列相關(guān)權(quán)限的表;
SHOW TABLES;
顯示當(dāng)前用戶擁有SELECT權(quán)限的列:
SHOW COLUMNS (FROM|IN) table_name [(FROM|IN) db_name];
顯示當(dāng)前系統(tǒng)中所有的角色(只有管理員用戶可以執(zhí)行):
SHOW ROLES;
顯示當(dāng)前影響當(dāng)前會(huì)話的角色:
SHOW CURRENT ROLES;
顯示指定組的被分配到的所有角色(只有管理員用戶和指定組內(nèi)的用戶可以執(zhí)行)
SHOW ROLE GRANT GROUP (groupName);
SHOW語(yǔ)句可以用來(lái)顯示一個(gè)角色被授予的權(quán)限或者顯示角色的一個(gè)特定對(duì)象的所有權(quán)限。
顯示指定角色的所有被賦予的權(quán)限。(只有管理員用戶和指定角色分配到的用戶可以執(zhí)行)。下面的語(yǔ)句也會(huì)顯示任何列級(jí)的權(quán)限。
SHOW GRANT ROLE (roleName);
顯示指定對(duì)象的一個(gè)角色的所有被賦予的權(quán)限(只有管理員用戶和指定角色分配到的用戶可以執(zhí)行)。下面的語(yǔ)句也會(huì)顯示任何列級(jí)的權(quán)限。
SHOW GRANT ROLE (roleName) on (OBJECT) (objectName);
----------------------------我也是有底線的-----------------------------
摘要: Python 里面的編碼和解碼也就是 unicode 和 str 這兩種形式的相互轉(zhuǎn)化。編碼是 unicode -> str,相反的,解碼就是 str -> unicode。剩下的問(wèn)題就是確定何時(shí)需要進(jìn)行編碼或者解碼了.關(guān)于文件開頭的"編碼指示",也就是 # -*- codin...
一、前言
早上醒來(lái)打開微信,同事反饋kafka集群從昨天凌晨開始寫入頻繁失敗,趕緊打開電腦查看了kafka集群的機(jī)器監(jiān)控,日志信息,發(fā)現(xiàn)其中一個(gè)節(jié)點(diǎn)的集群負(fù)載從昨天凌晨突然掉下來(lái)了,和同事反饋的時(shí)間點(diǎn)大概一致,于是乎就登錄服務(wù)器開始干活。
二、排錯(cuò)
1、查看機(jī)器監(jiān)控,看是否能大概定位是哪個(gè)節(jié)點(diǎn)有異常
技術(shù)分享
2、根據(jù)機(jī)器監(jiān)控大概定位到其中一個(gè)異常節(jié)點(diǎn),登錄服務(wù)器查看kafka日志,發(fā)現(xiàn)有報(bào)錯(cuò)日志,并且日志就停留在這個(gè)這個(gè)時(shí)間點(diǎn):
[2017-06-01 16:59:59,851] ERROR Processor got uncaught exception. (kafka.network.Processor)
java.lang.OutOfMemoryError: Direct buffer memory
at java.nio.Bits.reserveMemory(Bits.java:658)
at java.nio.DirectByteBuffer.<init>(DirectByteBuffer.java:123)
at java.nio.ByteBuffer.allocateDirect(ByteBuffer.java:306)
at sun.nio.ch.Util.getTemporaryDirectBuffer(Util.java:174)
at sun.nio.ch.IOUtil.read(IOUtil.java:195)
at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:379)
at org.apache.kafka.common.network.PlaintextTransportLayer.read(PlaintextTransportLayer.java:108)
at org.apache.kafka.common.network.NetworkReceive.readFromReadableChannel(NetworkReceive.java:97)
at org.apache.kafka.common.network.NetworkReceive.readFrom(NetworkReceive.java:71)
at org.apache.kafka.common.network.KafkaChannel.receive(KafkaChannel.java:160)
at org.apache.kafka.common.network.KafkaChannel.read(KafkaChannel.java:141)
at org.apache.kafka.common.network.Selector.poll(Selector.java:286)
at kafka.network.Processor.run(SocketServer.scala:413)3、查看kafka進(jìn)程和監(jiān)聽端口情況,發(fā)現(xiàn)都正常,尼瑪假死了
ps -ef |grep kafka ## 查看kafka的進(jìn)程
netstat -ntlp |grep 9092 ##9092kafka的監(jiān)聽端口4、既然已經(jīng)假死了,只能重啟了
ps -ef |grep kafka |grep -v grep |awk ‘{print $2}‘ | xargs kill -9
/usr/local/kafka/bin;nohup ./kafka-server-start.sh ../config/server.properties &5、重啟后在觀察該節(jié)點(diǎn)的kafka日志,在一頓index重建之后,上面的報(bào)錯(cuò)信息在瘋狂的刷,最后谷歌一番,解決了該問(wèn)題
三、解決方案:
在
/usr/local/kafka/binkafka-run-class.sh去掉
-XX:+DisableExplicitGC添加
-XX:MaxDirectMemorySize=512m在一次重啟kafka,問(wèn)題解決。
摘要: 我們每次執(zhí)行hive的hql時(shí),shell里都會(huì)提示一段話:[python] view plaincopy... Number of reduce tasks not specified. Estimated from input data size: 50...
摘要: spark 累加歷史主要用到了窗口函數(shù),而進(jìn)行全部統(tǒng)計(jì),則需要用到rollup函數(shù)
1 應(yīng)用場(chǎng)景:
1、我們需要統(tǒng)計(jì)用戶的總使用時(shí)長(zhǎng)(累加歷史)
2、前臺(tái)展現(xiàn)頁(yè)面需要對(duì)多個(gè)維度進(jìn)行查詢,如:產(chǎn)品、地區(qū)等等
3、需要展現(xiàn)的表格頭如: 產(chǎn)品、2015-04、2015-05、2015-06
2 原始數(shù)據(jù):
product_code |event_date |dur...
摘要: Spark1.4發(fā)布,支持了窗口分析函數(shù)(window functions)。在離線平臺(tái)中,90%以上的離線分析任務(wù)都是使用Hive實(shí)現(xiàn),其中必然會(huì)使用很多窗口分析函數(shù),如果SparkSQL支持窗口分析函數(shù),
那么對(duì)于后面Hive向SparkSQL中的遷移的工作量會(huì)大大降低,使用方式如下:
1、初始化數(shù)據(jù)
創(chuàng)建表
[sql] view plain cop...
1.in 不支持子查詢 eg. select * from src where key in(select key from test);
支持查詢個(gè)數(shù) eg. select * from src where key in(1,2,3,4,5);
in 40000個(gè) 耗時(shí)25.766秒
in 80000個(gè) 耗時(shí)78.827秒
2.union all/union
不支持頂層的union all eg. select key from src UNION ALL select key from test;
支持select * from (select key from src union all select key from test)aa;
不支持 union
支持select distinct key from (select key from src union all select key from test)aa;
3.intersect 不支持
4.minus 不支持
5.except 不支持
6.inner join/join/left outer join/right outer join/full outer join/left semi join 都支持
left outer join/right outer join/full outer join 中間必須有outer
join是最簡(jiǎn)單的關(guān)聯(lián)操作,兩邊關(guān)聯(lián)只取交集;
left outer join是以左表驅(qū)動(dòng),右表不存在的key均賦值為null;
right outer join是以右表驅(qū)動(dòng),左表不存在的key均賦值為null;
full outer join全表關(guān)聯(lián),將兩表完整的進(jìn)行笛卡爾積操作,左右表均可賦值為null;
left semi join最主要的使用場(chǎng)景就是解決exist in;
Hive不支持where子句中的子查詢,SQL常用的exist in子句在Hive中是不支持的
不支持子查詢 eg. select * from src aa where aa.key in(select bb.key from test bb);
可用以下兩種方式替換:
select * from src aa left outer join test bb on aa.key=bb.key where bb.key <> null;
select * from src aa left semi join test bb on aa.key=bb.key;
大多數(shù)情況下 JOIN ON 和 left semi on 是對(duì)等的
A,B兩表連接,如果B表存在重復(fù)數(shù)據(jù)
當(dāng)使用JOIN ON的時(shí)候,A,B表會(huì)關(guān)聯(lián)出兩條記錄,應(yīng)為ON上的條件符合;
而是用LEFT SEMI JOIN 當(dāng)A表中的記錄,在B表上產(chǎn)生符合條件之后就返回,不會(huì)再繼續(xù)查找B表記錄了,
所以如果B表有重復(fù),也不會(huì)產(chǎn)生重復(fù)的多條記錄。
left outer join 支持子查詢 eg. select aa.* from src aa left outer join (select * from test111)bb on aa.key=bb.a;
7. hive四中數(shù)據(jù)導(dǎo)入方式
1)從本地文件系統(tǒng)中導(dǎo)入數(shù)據(jù)到Hive表
create table wyp(id int,name string) ROW FORMAT delimited fields terminated by '\t' STORED AS TEXTFILE;
load data local inpath 'wyp.txt' into table wyp;
2)從HDFS上導(dǎo)入數(shù)據(jù)到Hive表
[wyp@master /home/q/hadoop-2.2.0]$ bin/hadoop fs -cat /home/wyp/add.txt
hive> load data inpath '/home/wyp/add.txt' into table wyp;
3)從別的表中查詢出相應(yīng)的數(shù)據(jù)并導(dǎo)入到Hive表中
hive> create table test(
> id int, name string
> ,tel string)
> partitioned by
> (age int)
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY '\t'
> STORED AS TEXTFILE;
注:test表里面用age作為了分區(qū)字段,分區(qū):在Hive中,表的每一個(gè)分區(qū)對(duì)應(yīng)表下的相應(yīng)目錄,所有分區(qū)的數(shù)據(jù)都是存儲(chǔ)在對(duì)應(yīng)的目錄中。
比如wyp表有dt和city兩個(gè)分區(qū),則對(duì)應(yīng)dt=20131218city=BJ對(duì)應(yīng)表的目錄為/user/hive/warehouse/dt=20131218/city=BJ,
所有屬于這個(gè)分區(qū)的數(shù)據(jù)都存放在這個(gè)目錄中。
hive> insert into table test
> partition (age='25')
> select id, name, tel
> from wyp;
也可以在select語(yǔ)句里面通過(guò)使用分區(qū)值來(lái)動(dòng)態(tài)指明分區(qū):
hive> set hive.exec.dynamic.partition.mode=nonstrict;
hive> insert into table test
> partition (age)
> select id, name,
> tel, age
> from wyp;
Hive也支持insert overwrite方式來(lái)插入數(shù)據(jù)
hive> insert overwrite table test
> PARTITION (age)
> select id, name, tel, age
> from wyp;
Hive還支持多表插入
hive> from wyp
> insert into table test
> partition(age)
> select id, name, tel, age
> insert into table test3
> select id, name
> where age>25;
4)在創(chuàng)建表的時(shí)候通過(guò)從別的表中查詢出相應(yīng)的記錄并插入到所創(chuàng)建的表中
hive> create table test4
> as
> select id, name, tel
> from wyp;
8.查看建表語(yǔ)句
hive> show create table test3;
9.表重命名
hive> ALTER TABLE events RENAME TO 3koobecaf;
10.表增加列
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);
11.添加一列并增加列字段注釋
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');
12.刪除表
hive> DROP TABLE pokes;
13.top n
hive> select * from test order by key limit 10;
14.創(chuàng)建數(shù)據(jù)庫(kù)
Create Database baseball;
14.alter table tablename change oldColumn newColumn column_type 修改列的名稱和類型
alter table yangsy CHANGE product_no phone_no string
15.導(dǎo)入.sql文件中的sql
spark-sql --driver-class-path /home/hadoop/hive/lib/mysql-connector-java-5.1.30-bin.jar -f testsql.sql
insert into table CI_CUSER_20141117154351522 select mainResult.PRODUCT_NO,dw_coclbl_m02_3848.L1_01_02_01,dw_coclbl_d01_3845.L2_01_01_04 from (select PRODUCT_NO from CI_CUSER_20141114203632267) mainResult left join DW_COCLBL_M02_201407 dw_coclbl_m02_3848 on mainResult.PRODUCT_NO = dw_coclbl_m02_3848.PRODUCT_NO left join DW_COCLBL_D01_20140515 dw_coclbl_d01_3845 on dw_coclbl_m02_3848.PRODUCT_NO = dw_coclbl_d01_3845.PRODUCT_NO
insert into CI_CUSER_20141117142123638 ( PRODUCT_NO,ATTR_COL_0000,ATTR_COL_0001) select mainResult.PRODUCT_NO,dw_coclbl_m02_3848.L1_01_02_01,dw_coclbl_m02_3848.L1_01_03_01 from (select PRODUCT_NO from CI_CUSER_20141114203632267) mainResult left join DW_COCLBL_M02_201407 dw_coclbl_m02_3848 on mainResult.PRODUCT_NO = dw_coclbl_m02_3848.PRODUCT_NO
CREATE TABLE ci_cuser_yymmddhhmisstttttt_tmp(product_no string) row format serde 'com.bizo.hive.serde.csv.CSVSerde' ;
LOAD DATA LOCAL INPATH '/home/ocdc/coc/yuli/test123.csv' OVERWRITE INTO TABLE test_yuli2;
創(chuàng)建支持CSV格式的testfile文件
CREATE TABLE test_yuli7 row format serde 'com.bizo.hive.serde.csv.CSVSerde' as select * from CI_CUSER_20150310162729786;
不依賴CSVSerde的jar包創(chuàng)建逗號(hào)分隔的表
"create table " +listName+ " ROW FORMAT DELIMITED FIELDS TERMINATED BY ','" +
" as select * from " + listName1;
create table aaaa ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE as select * from
ThriftServer 開啟FAIR模式
SparkSQL Thrift Server 開啟FAIR調(diào)度方式:
1. 修改$SPARK_HOME/conf/spark-defaults.conf,新增
2. spark.scheduler.mode FAIR
3. spark.scheduler.allocation.file /Users/tianyi/github/community/apache-spark/conf/fair-scheduler.xml
4. 修改$SPARK_HOME/conf/fair-scheduler.xml(或新增該文件), 編輯如下格式內(nèi)容
5. <?xml version="1.0"?>
6. <allocations>
7. <pool name="production">
8. <schedulingMode>FAIR</schedulingMode>
9. <!-- weight表示兩個(gè)隊(duì)列在minShare相同的情況下,可以使用資源的比例 -->
10. <weight>1</weight>
11. <!-- minShare表示優(yōu)先保證的資源數(shù) -->
12. <minShare>2</minShare>
13. </pool>
14. <pool name="test">
15. <schedulingMode>FIFO</schedulingMode>
16. <weight>2</weight>
17. <minShare>3</minShare>
18. </pool>
19. </allocations>
20. 重啟Thrift Server
21. 執(zhí)行SQL前,執(zhí)行
22. set spark.sql.thriftserver.scheduler.pool=指定的隊(duì)列名
等操作完了 create table yangsy555 like CI_CUSER_YYMMDDHHMISSTTTTTT 然后insert into yangsy555 select * from yangsy555
創(chuàng)建一個(gè)自增序列表,使用row_number() over()為表增加序列號(hào) 以供分頁(yè)查詢
create table yagnsytest2 as SELECT ROW_NUMBER() OVER() as id,* from yangsytest;

Sparksql的解析與Hiveql的解析的執(zhí)行流程:
