全国三甲医院数据分析-pyecharts动态图表可视化

1200+三甲医院地理坐标(百度地图API),数据处理和分析,pyecharts数据可视化

https://www.linkedin.com/feed/update/urn:li:activity:6642160429646868480

https://lnkd.in/f78_A3T
Within one or days, I did ETL on 1200+ top hospitals in China. 30000hospitals of which 3000 were tier 3. Only 1200+ tier 3 Top Class.
Data crawling was done a few weeks ago. Recently I put the data into mysql. Then I did data cleaning and processing with MySQL and python. Finally data visualization was done with Pyecharts.
Feel free to review it on my website. It’s in html tabs and easy to view. Very interactive Charts!
To your surprise, Wuhan or Hubei has one of the best medical resources in China. Virus like this is beyond capability of any emergency systems in any countries.
嗯,天快亮了。花了一两天时间把全国1200+三甲医院的数据(全国3万家左右医院,提取出不到3000三级,三甲其实才1200+)提取出来(在我这个链接里你可以看到每家三甲医院的地理位置和电话),处理分析了下,一共12张动态图,做成了html,欢迎大家打开链接观赏下,不看你会后悔的,开心一笑!
大家一定要打开网页看下,手机调成横屏。一共12个标签页,因为这样更方便看图。有时间我再出个简单的分析报告和处理流程,放在自己的网站。你的点击能助力那些想学习数据分析而又找不到敲门的朋友找到我的网站[Shake]如果有朋友懂得运营,欢迎指点迷津,有志于做个高质量的技术博客。
这些漂亮的动态图之后是几十个小时的数据处理,这两天代码敲的都快折了!一共700-800行代码,包括爬虫,导入数据库(mysql里也做了些简单的分析处理),数据清洗,数据处理,数据分析和可视化。用到的工具主要是python,pyecharts,json,mysql。
睡个觉,该起来吃早饭了,忙的一天只吃了一顿饭。

pandas read_html+beautifulsoup爬虫中国产业研究院2019年三季度3688家上市公司的季报信息

今天靠港避风,大风浪对我的进度影响不大,风浪中昏睡半天后生产力反而更强大了。
两天一个小项目,今天完成了爬取3688家上市公司的2019年三季报基本信息,目标网站中国产业研究院,入门级爬虫先找个软柿子吧,目前还没研究验证码和模拟登陆。轮子造好之后可以顺利爬取N多年的季报和年报基本信息,爬完处理下可以出个小分析报告了。
还是老样子,笔记本上调试完代码爬出来输出到mysql中,因为远程v p n没有设置好mysql索性输出到了csv文件,也方便索引。
船上的龟速导致我昨天晚上代码老是掉链子,经常容易read timeout,设置了retry也不行。今天完善了下代码框架,增加了user-agent随机性,并加入了高质量的proxy(高质量vpn五个),虽然速度慢了但是稳定性加强了,可以hand free模式了。本地笔记本10秒左右有时候好几分钟,远程机器因为网速快也就3-5秒一页(太快了不稳定)。
这次用了新的方案,pandas 的read_html特别适合处理表格,+beautifulsoup解析。
400多行代码,以后可以轻松爬各种表格形式的数据了。