最近在用Python下载了一些抖音视频,本来一切都好好着呢,将下载好的视频保存到阿里云盘后,我想百度的2T不用白不用,于是把视频上传到百度网盘上,但上传了一会儿后发现,几乎都不能上传,看了原因命名不符合规定,原来文件名有emoji表情,抖音上边好多人都喜欢加emoji,但这样的视频不能上传到百度网盘,有没有什么办法呢,百度了一下,还真有。
可以用正则的方法将不符合的字符去掉就行。
import re
mystr = "hahaAAA哈哈綂123./!#鱫愛"
str1 = ''.join(re.findall('[\u4e00-\u9fa5]',mystr)) # 只保留汉字
print(str1)
str2 = ''.join(re.findall('[a-z]',mystr)) # 只保留小写字母
print(str2)
str3 = ''.join(re.findall('[0-9]',mystr)) # 只保留数字
print(str3)
str4 = ''.join(re.findall('[\u4e00-\u9fa5a-zA-Z0-9]',mystr)) # 只保留字母,汉字和数字
print(str4)
str5 = ''.join(re.findall('[^\u4e00-\u9fa5^a-z^A-Z^0-9]',mystr))# 只保留除了汉字、字母、数字以外的字符
print(str5)
以下是韩语,日语和符号的代码实现
s="""
en: Regular expression is a powerful tool for manipulating !text?:<>\/.
zh: 汉语是世界上最优美的语言,正则表达式是一个很有用的工具?。,‘;“:;’
jp: 正規表現は非常に役に立つツールテキストを操作することです。
jp-char: あアいイうウえエおオ
kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다.
"""
print ("原始utf8字符" )
#utf8
print ("--------" )
print( repr(s) )
print( "--------\n" )
#非ansi
re_words=re.compile(r"[\x80-\xff]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print ("非ansi字符" )
print ("--------" )
print (m1)
#print (m.group() )
print ("--------\n" )
#中文
re_words = re.compile(u"[\u4e00-\u9fa5]+")
#m = re_words.search(s)
m1=re.findall(re_words, s)
#print(''.join(m1))
print( "unicode 中文" )
print(m1)
print( "--------" )
#unicode korean
re_words=re.compile(u"[\uac00-\ud7ff]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print( "unicode 韩文" )
print(m1)
print( "--------\n" )
#unicode japanese katakana
re_words=re.compile(u"[\u30a0-\u30ff]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print( "unicode 日文 片假名" )
print ("--------" )
print(m1)
print( "--------\n" )
#unicode japanese hiragana
re_words=re.compile(u"[\u3040-\u309f]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print( "unicode 日文 平假名" )
print ("--------" )
print(m1)
print( "--------\n" )
#unicode cjk Punctuation
re_words=re.compile(u"[\u3000-\u303f\ufb00-\ufffd]+")
#m = re_words.search(s,0)
m1=re.findall(re_words, s)
print( "unicode 标点符号" )
print ("--------" )
print(m1)
print( "--------\n" )
现在终于可以上传到百度网盘啦。
扫描二维码,在手机上阅读!