Python使用langid库来识别字符串语言

python使用 langid 库来实现识别字符串是什么语言;langid 是第三方库,需要我们自己安装;

使用 pip3 安装 langid :

pip3 install langid

langid 依赖一个叫 numpy 的库,不过不用担心,安装 langid 时 pip 会将其依赖也进行安装。

导入库来看看是否安装成功:

import langid

如果没提示错误,则表示安装成功。

langid 简单的示例代码:

import langid
stringA = 'Hello word'
result = langid.classify(stringA)
print(result)

langid.classify() 方法会返回一个元组,第一项为语言的种类,第二项为占比;

用法示例:

import langid
 
LANGUAGE = {
    'en':'英文',
    'zh':'中文'
}
 
UNKNOWN_LANGUAGE = '未知'
 
def checkLang(string):
    try:
        return LANGUAGE[langid.classify(string)[0]]
    except KeyError:
        return UNKNOWN_LANGUAGE
    
string_en = 'hello word'
string_ch = '你好啊'
 
print(checkLang(string_en))
print(checkLang(string_ch))

原创内容,如需转载,请注明出处;

本文地址: https://www.perfcode.com/p/598.html

分类: 计算机技术
推荐阅读:
Python round()函数 在 Python 中,round() 函数用于将一个浮点数四舍五入到指定的小数位数。它可以接受两个参数:要四舍五入的浮点数和指定的小数位数(默认为 0)。
Python memoryview()函数 memoryview() 函数是一个内置函数,它返回一个memoryview对象,该对象可以用于在 Python 中访问二进制数据。
MySQL AES_ENCRYPT()、AES_DECRYPT()函数 AES_ENCRYPT()和AES_DECRYPT()使用官方AES算法实现数据的加密和解密;其密钥默认长度为128位,默认块加密模式为ECB;
VirtualBox的无缝模式真是太酷了 VirtualBox的无缝模式真的很酷,可以让虚拟机中的系统和Windows系统共享一个窗口,具体是个什么效果,请看下图:
Python breakpoint()函数 breakpoint()是 Python 3.7 中新增的一个调试工具,它是一个内置函数,可以在程序执行过程中插入一个断点,让程序停在该处等待调试器的进一步命令。
C语言isblank()函数:判断字符是否为空白字符 isblank()函数是C语言中的一个标准库函数,用于判断一个字符是否为标准空白字符(即空格' '和水平制表符'\t');如果参数c是一个标准空白字符,则返回true,否则返回false;