全国三甲医院数据分析-pyecharts动态图表可视化

1200+三甲医院地理坐标(百度地图API),数据处理和分析,pyecharts数据可视化

https://www.linkedin.com/feed/update/urn:li:activity:6642160429646868480

https://lnkd.in/f78_A3T
Within one or days, I did ETL on 1200+ top hospitals in China. 30000hospitals of which 3000 were tier 3. Only 1200+ tier 3 Top Class.
Data crawling was done a few weeks ago. Recently I put the data into mysql. Then I did data cleaning and processing with MySQL and python. Finally data visualization was done with Pyecharts.
Feel free to review it on my website. It’s in html tabs and easy to view. Very interactive Charts!
To your surprise, Wuhan or Hubei has one of the best medical resources in China. Virus like this is beyond capability of any emergency systems in any countries.
嗯,天快亮了。花了一两天时间把全国1200+三甲医院的数据(全国3万家左右医院,提取出不到3000三级,三甲其实才1200+)提取出来(在我这个链接里你可以看到每家三甲医院的地理位置和电话),处理分析了下,一共12张动态图,做成了html,欢迎大家打开链接观赏下,不看你会后悔的,开心一笑!
大家一定要打开网页看下,手机调成横屏。一共12个标签页,因为这样更方便看图。有时间我再出个简单的分析报告和处理流程,放在自己的网站。你的点击能助力那些想学习数据分析而又找不到敲门的朋友找到我的网站[Shake]如果有朋友懂得运营,欢迎指点迷津,有志于做个高质量的技术博客。
这些漂亮的动态图之后是几十个小时的数据处理,这两天代码敲的都快折了!一共700-800行代码,包括爬虫,导入数据库(mysql里也做了些简单的分析处理),数据清洗,数据处理,数据分析和可视化。用到的工具主要是python,pyecharts,json,mysql。
睡个觉,该起来吃早饭了,忙的一天只吃了一顿饭。

pandas read_html+beautifulsoup爬虫中国产业研究院2019年三季度3688家上市公司的季报信息

今天靠港避风,大风浪对我的进度影响不大,风浪中昏睡半天后生产力反而更强大了。
两天一个小项目,今天完成了爬取3688家上市公司的2019年三季报基本信息,目标网站中国产业研究院,入门级爬虫先找个软柿子吧,目前还没研究验证码和模拟登陆。轮子造好之后可以顺利爬取N多年的季报和年报基本信息,爬完处理下可以出个小分析报告了。
还是老样子,笔记本上调试完代码爬出来输出到mysql中,因为远程v p n没有设置好mysql索性输出到了csv文件,也方便索引。
船上的龟速导致我昨天晚上代码老是掉链子,经常容易read timeout,设置了retry也不行。今天完善了下代码框架,增加了user-agent随机性,并加入了高质量的proxy(高质量vpn五个),虽然速度慢了但是稳定性加强了,可以hands free模式了。本地笔记本10秒左右有时候好几分钟,远程机器因为网速快也就3-5秒一页(太快了不稳定)。
这次用了新的方案,pandas 的read_html特别适合处理表格,+beautifulsoup解析。
图一中国产业研究院,图二mysql数据表,图三vbn代码运行,图四笔记本代码运行。100
多行代码,以后可以轻松爬各种表格形式的数据了。

beautifulsoup中国医疗保险网爬虫

突然想分析下这次疫情影响和国内医疗资源分配的关系,小试牛刀,在笔记本上把代码调好后在vpn上跑了起来,速度自然是快了很多。
爬取的中国医疗保险网,比较官方,这个网站有个坑,我分析它的html页面时发现网站有隐藏元素,政策浏览看不到医院的联系方式(地址,联系电话,网站,邮件),这个就是给爬虫者挖的坑。但是即便知道有坑我还是跳了,联系方式重要性不言而喻。被封了ip再说,手里有三个vpn+笔记本,估计能爬完1529页(30580家医院的信息)。爬完清洗下数据,做下分析再晒图。
代码虽然不长,但是花了我很多时间,最近牺牲的休息时间太多了。最大的坑就是那个隐藏元素不知道怎么有效地提取出来,网页上显性的东西都在html数上比较清晰,深度不算深,方便索引出来。
图一是笔记本上的代码缩略图,2-4是vpn上跑代码图,估计需要一两个小时吧!虽然代码花了一两天,但是远远比人工复制粘贴1529页容易太多。
代码采取了几个简单的反爬策略,即vpn,header设置(time out时间,浏览器伪装等,)随机休眠时间,出错应对策略等。对于比较简单的网站基本上够了。
图五是爬取的第一页,信息还算详细。完事了清洗下数据可以用pyecharts做个图做个可视化。数据有偿可取,请我吃顿饭即可[呲牙]