SQL查重和防止数据重复

今天从爬下来的医院数据创建一个新数据表时遇到了错误,这个也是预料中的,因为爬取的医院名称有的在括号内还有一个名称,我处理数据时把括号及里面的数据删除掉了,所以结果肯定有少量重复。解决办法是重新处理数据写入SQL,重新设置primary key

mysql> CREATE TABLE tier3_hospital (UNIQUE (hospital_name_new)) SELECT hospital_name_new,hospital_tier,Provinces,Cities,address,phone FROM hospital_list_table WHERE hospital_tier LIKE “%三 级%”;
ERROR 1062 (23000): Duplicate entry ‘吉林大学第三医院’ for key ‘hospital_name_new’
mysql> SELECT COUNT(*) as repetitions, hospital_name_new
-> FROM hospital_list_table
-> GROUP BY hospital_name_new
-> HAVING repetitions > 1;
+————-+———————————-+
| repetitions | hospital_name_new |
+————-+———————————-+
| 2 | 中德精神康复医院 |
| 2 | 兴义市人民医院 |
| 2 | 内蒙古胸科医院 |
| 2 | 南京市长江医院第四医院 |
| 2 | 南京长江医院第三医院 |
| 2 | 南京长江医院第二医院 |
| 2 | 吉林华侨医院 |
| 2 | 吉林大学第三医学院分院 |
| 2 | 吉林大学第三医院 |
| 2 | 呼伦贝尔盟第二人民医院 |
| 3 | 唐山华新纺织集团医院 |
| 2 | 四川省中医药研究院中医医院 |
| 2 | 太原市小店区亲贤医院 |
| 2 | 太原市煤炭气化公司职工医院 |
| 2 | 孝感市人民医院 |
| 2 | 安丘市白求恩医院 |
| 2 | 安丘市精神卫生中心 |
| 2 | 安溪县中医院 |
| 2 | 宜宾市康复医院 |
| 2 | 广州市番禺区岐山医院 |
| 2 | 广西亭凉医院 |
| 2 | 广西龙泉山医院 |
| 2 | 张家口市肺科医院 |
| 2 | 本溪钢铁公司胸科医院 |
| 2 | 梧州市里湖医院 |
| 2 | 武汉钢铁公司第二职工医院 |
| 2 | 武汉钢铁公司第二职工医院结核病院 |
| 2 | 河北省中医院 |
| 2 | 淮南朝阳医院 |
| 2 | 牡丹江市结核医院 |
| 2 | 苏州九龙医院 |
| 2 | 襄阳汽车轴承股份有限公司医院 |
| 2 | 镇江市烧伤医院 |
| 2 | 长治市商业医院 |
+————-+———————————-+
34 rows in set (0.04 sec)

下面这个情况就很尴尬了:

mysql> SELECT * FROM hospital_list_table
-> WHERE hospital_name_new=’吉林大学第三医院’;
+———————————————-+——————-+————————-+———–+——————+—————+——————————-+————–+——-+———+
| hospital_name | hospital_name_new | city | Provinces | Cities | hospital_tier | address | phone | email | website |
+———————————————-+——————-+————————-+———–+——————+—————+——————————-+————–+——-+———+
| 吉林大学第三医院 | 吉林大学第三医院 | 吉林省-延边朝鲜族自治州 | 吉林省 | 延边朝鲜族自治州 | 三级甲等 | 吉林省长春市二道区仙台大街2号 | 0431-4646331 | NULL | NULL |
| 吉林大学第三医院(中日联谊二部)(吉大三院) | 吉林大学第三医院 | 吉林省-长春市 | 吉林省 | 长春市 | 三级甲等 | 吉林省长春市仙台大街2号 | 0431-5656921 | NULL | NULL |
+———————————————-+——————-+————————-+———–+——————+—————+——————————-+————–+——-+———+
2 rows in set (0.02 sec)

http://huanyouchen.github.io/2018/05/22/mysql-error-1406-Data-too-long-for-column/

另外,mysql报错:1406, “Data too long for column”,可以:

在MySQL中设置这个:

mysql> SET @@global.sql_mode= ”;

Leave a Reply