本篇文章首席CTO笔记来给大家介绍有关python中1G的模型要加载多久以及的相关内容,希望对大家有所帮助,一起来看看吧。
本文目录一览:
1、python跑10000个数据集要多久2、用python处理一个1G左右的数据集,运行速度非常慢,怎样优化3、Python使用easyocr模块完成图片文字识别python跑10000个数据集要多久
看具体采集任务的内容,如果是图片,访问地址规范,熟悉规则,也就是一两分钟的事情,如果是复杂网页,并且反爬规则负杂可能需要半个小时,如果类似从天眼查爬取整个公司信息10000个,可能需要一两天,因为一个公司就需要n多信息
用python处理一个1G左右的数据集,运行速度非常慢,怎样优化
第一个办法,降低数据集的大小。python处理数据,如果数据结构中的数据超过2GB,通常都会很慢。如何降低数据集大小,需要修改算法。
第二个办法,将数据结构采用数组array或者是numarray存贮。这样内存数量与查找效率都会提高。尽量不要使用大的dict。使用一个省内存的blist代替list
第三个办法,将数据通过共享内存,让C++扩展模块来处理。
常用的是第二种办法。就是换个数据结构就可以提高效率。
Python使用easyocr模块完成图片文字识别
EasyOCR实际上是一个python包,它将pytorch作为后端处理程序。EasyOCR像任何其他OCR(谷歌的tesseract或任何其他OCR)一样从图像中检测文本,但在我使用它的参考资料中,我发现它是从图像中检测文本的最直接的方法,而且高端深度学习库(pytorch)在后端支持它,这使它的准确性更可靠。EasyOCR支持42多种语言用于检测目的。
可以在 easyocr · PyPI 上查看easyocr模块说明信息以及用法。
easyocr.Reader设置语言列表,可以同时通过多种语言,但并非所有语言都可以一起使用,英语与每种语言兼容。将模型加载到内存中需要一些时间,但它只需要运行一次。
比如下面的设置语言,可根据图片中的文字类别来选择。
reader_ch_tra = easyocr.Reader(['ch_tra', 'en']),指定繁体中文和英语
reader_ch_sim = easyocr.Reader(['ch_sim', 'en']),指定简体中文和英语
reader_ch_en = easyocr.Reader(['en']),指定英语
1、标牌文字识别
可以指定detail = 0来简单的输出。
可以在命令行中调用easyocr工具来实现命令行解析。
2 、车牌识别
3 、验证码识别
4、长篇文字
结语:以上就是首席CTO笔记为大家介绍的关于python中1G的模型要加载多久和的全部内容了,希望对大家有所帮助,如果你还想了解更多这方面的信息,记得收藏关注本站。