返回顶部
首页 > 资讯 > 后端开发 > Python >使用python操作solr
  • 908
分享到

使用python操作solr

操作pythonsolr 2023-01-31 07:01:45 908人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

python:2.7 solr:5.1 使用Java的同学可以使用solrj操作solr,但是Python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使用。 如果是对solr进行查询操

python:2.7

solr:5.1


使用Java的同学可以使用solrj操作solr,但是Python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使用。

如果是对solr进行查询操作,其实非常简单,只需要完成一次get请求就可以了,最初接触python时,就是在浏览器里进行查询操作。

既然没有太好用的模块,就自己摸索着写一个吧,只需能完成工作中的特定工作内容就可以了。

对solr索引的添加,删除,可以发送post请求。post的内容呢,是xml格式的。例如<add><doc><field name="id">4</field></doc></add>  将这段内容post到

solr服务器,服务器那边就会进行新增处理了,但是这个时候你还无法搜索到,因为还缺少一个<commit/>,把这个<commit/>也post过去后,服务器才会让之前的更新生效,delete也一样的简单,看源码就了解了。

你的core的地址如果是这样的:Http://localhost:8080:/solr/user  那么我们最终访问的网址是http://localhost:8080:/solr/user/update/ 

我这里调用aDDDoc时,是每三万条提交一次,如果每个doc都提交,那么每次都需要进行http连接,很浪费性能的,但是呢,这里也有一个隐患,那就是Tomcat服务器一次最大能够处理的post请求如果小于我们实际提交的请求,就会出错。这里说的能处理的最大请求不是指doc的数量,而是post到服务器的数据的大小。这和浏览器对url的长度有限制一样,其实服务器对post请求的实际传输数据的大小也是有限制的。具体的限制可以进行配置,不过我没有在自己的tomcat配置里找到,希望它永远不会超过那个默认配置。。。。。

[python] view plain copy
  1. #coding=utf-8  
  2. ''''' 
  3. Created on 2015-10-9 
  4. Solr5.1亲测可行 
  5. @author: kwsy2015 
  6. '''  
  7. import urllib2  
  8. from xml.sax.saxutils import escape, quoteattr  
  9. class MySolrPy():  
  10.     def __init__(self,solrurl):  
  11.         self.solrurl = solrurl+'/update/'  
  12.         print self.solrurl  
  13.         self.docs = []  
  14.         self.size = 0  
  15.     #添加新的文档      
  16.     def add(self,doc):  
  17.         self.docs.append(doc)  
  18.         self.size += 1  
  19.         if self.size>=30000:  
  20.             print self.size  
  21.             self.commit()       
  22.             self.docs = []  
  23.             self.size = 0  
  24.     #提交数据          
  25.     def _commit(self,data):  
  26.         requestAdd = urllib2.Request(  
  27.                           url=self.solrurl,  
  28.                           headers={'Content-type':'text/xml; charset=utf-8'},  
  29.                           )  
  30.         requestCommit = urllib2.Request(  
  31.                           url=self.solrurl,  
  32.                           headers={'Content-type':'text/xml'},  
  33.                           )  
  34.            
  35.           
  36.         opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())  
  37.         responseAdd = opener.open(requestAdd,data)  
  38.           
  39.         responseCommit = opener.open(requestCommit,'<commit/>')  
  40.           
  41.     #根据指定的id删除索引    
  42.     def delDoc(self,id):  
  43.         lst = [u'<delete><id>']  
  44.         lst.append('%s' % (escape(unicode(id))))  
  45.         lst.append(u'</id></delete>')  
  46.         data = ''.join(lst)  
  47.         self._commit(data)  
  48.     #删除所有数据     
  49.     def delAll(self):  
  50.         delCommond = '<delete><query>*:*</query></delete>'  
  51.         self._commit(delCommond)  
  52.     #用于新增索引时提交数据     
  53.     def commit(self):  
  54.         lst = [u'<add>']  
  55.           
  56.         for doc in self.docs:  
  57.             newdoc = self.packagingDoc(lst, doc)  
  58.         lst.append(u'</add>')  
  59.         data = ''.join(lst).encode('utf-8')  
  60.         self._commit(data)  
  61.     #包装数据  
  62.     def packagingDoc(self,lst, doc):  
  63.           
  64.         lst.append(u'<doc>')  
  65.         for k,v in doc.items():      
  66.             lst.append('<field name=%s>%s</field>' % (  
  67.                     (quoteattr(k),  
  68.                     escape(unicode(v)))))  
  69.         lst.append('</doc>')  

使用的例子

[python] view plain copy
  1. #coding=utf-8  
  2. ''''' 
  3. Created on 2015-10-9 
  4.  
  5. @author: kwsy2015 
  6. '''  
  7. import pymonGo  
  8. from bson import ObjectId  
  9. from pymongo import MongoClient  
  10. from WEBUser.MySolrPy import MySolrPy  
  11. #连接数据库  
  12. client = MongoClient('localhost', 27017)  
  13. #获得一个database  
  14. db = client.webuser  
  15. #获得一个collection  
  16. coll = db.userinfo  
  17. count = 0  
  18. docs = coll.find()  
  19. msp =  MySolrPy('http://localhost:8080/solr/emailSolr')  
  20. msp.delDoc(3)  
  21. for doc in docs:  
  22.     count += 1  
  23.     bean = {  
  24.             'id':count,  
  25.             'email_ik':doc['emailLink'],  
  26.             'email_s':doc['email'],  
  27.             'namen_s':doc['name'],  
  28.             'passWordn_s':doc['password'],  
  29.             'webnamen_s':doc['webname']            
  30.             }  
  31.     msp.add(bean)  
  32.       
  33.     if count>100000:  
  34.         break  
  35. msp.commit()  
  36. print 'ok'

--结束END--

本文标题: 使用python操作solr

本文链接: https://lsjlt.com/news/190802.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • 使用python操作solr
    Python:2.7 solr:5.1 使用Java的同学可以使用solrj操作solr,但是python就没有太好的操作solr的模块了。虽然也能找到几个,例如solrpy,但是由于年久失修,基本不能使用。 如果是对solr进行查询操...
    99+
    2023-01-31
    操作 python solr
  • python操作solr
    solr接收http请求,所以使用requests库操作solr就可以 添加 data = {"add": {"doc": params, "commitWithin": 1000}} headers = {"Co...
    99+
    2023-01-31
    操作 python solr
  • PHP操作solr
    1,php下载solr(索尔)扩展,phpinfo需要支持solr扩展. 2,安装 Solr。Solr 要求您的系统上有 Java。java –version,Java 的版本大于 1.6 3,下载s...
    99+
    2023-09-05
    php solr
  • linux中如何搭建solr的操作方法
    这篇文章主要介绍了linux中如何搭建solr的操作方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。环境centos7 及最新版本solr7先在/usr/local下mkd...
    99+
    2023-06-09
  • java如何操作solr实现查询功能
    这篇文章主要介绍了java如何操作solr实现查询功能,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、封装的查询方法public static List...
    99+
    2023-05-30
    java solr
  • 使用 Python 操作 Kafka
    使用 Python 操作 Kafka Apache Kafka 是一个分布式的流处理平台,它具有高吞吐量、可扩展性和持久性的特点。通过使用 Python 的 kafka-python 模块,我们可以方...
    99+
    2023-09-26
    python kafka 开发语言
  • python使用pika操作rabbitmq
    python 连接操作rabbitMQ 主要是使用pika库pip3 install pika==1.1.0 官方对于pika有如下介绍Since threads aren’t a...
    99+
    2023-01-31
    操作 python pika
  • 使用python对redis操作
    写在前面首先声明,这是为了学习python对redis操作而写的一个小demo,包括了这几天网站找到的一些资料,综合总结出来一些东西,最后附上我写的一个用python操作redis的一个demo:模块安装python提供了一个模块redis...
    99+
    2023-01-31
    操作 python redis
  • python使用dom操作xml
    1、xml的内容为del.xml,如下 <xml version="1.0" encoding="utf-8"> <catalog> <maxid>4</maxid> &...
    99+
    2023-01-31
    操作 python dom
  • 使用 Python-LDAP 操作 LD
    转自:http://www.vpsee.com/ 周末看到那些排队血拼的人们,不用走进 shopping mall、不用看到那些五颜六色的打折和视觉冲击就能感受到 “节日要到了!”。一年又快结束了,这周完成备份、升级之类的收尾工作,接...
    99+
    2023-01-31
    操作 Python LDAP
  • 使用Python操作PDF文件
    从PDF读取文本内容和从已经有的文档生成新的PDF。 需要用到的模块是PyPDF2. mstamy2/PyPDF2: A utility to read and write PDFs...
    99+
    2024-04-02
  • python学习-使用MySQLdb操作
    操作环境为python2.7 centos7一、MySQLdb的安装与配置MySQLdb是用于Python连接mysql数据库的接口,它实现了Python数据库api规范2.0。按照以下方式安装yum install epel-releas...
    99+
    2023-01-31
    操作 python MySQLdb
  • 使用python语言操作MongoDB
    MongoDB是一个跨平台的NoSQL,基于Key-Value形式保存数据。其储存格式非常类似于Python的字典,因此用Python操作MongoDB会非常的容易。 pymongo的两种安装命令 pip install pym...
    99+
    2023-01-31
    语言 操作 python
  • 怎么在java中使用solr
    这篇文章给大家介绍怎么在java中使用solr,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。SolrJ是操作Solr的Java客户端,它提供了增加、修改、删除、查询Solr索引的JAVA接口。SolrJ针对 Solr提...
    99+
    2023-05-31
    java solr ava
  • Python学习之使用Python操作R
    最近在写一个检查一台服务器上所有游戏区服配置文件中redis某个key值大小的脚本,本打算使用shell+awk+sed的方式去解决这个问题,但是由于redis的配置信息是php数组形式.shell脚本一时没有写出来,就请教他人帮忙写了个p...
    99+
    2023-01-31
    操作 Python
  • python使用pymysql模块操作MySQL
    目录实例一:插入数据实例二:获取某个表全部数据实例三:根据cName模糊搜索实例四:修改数据实例五:删除数据实例一:插入数据 import pymysql import tkinter as tk conn ...
    99+
    2022-06-02
    python pymysql python 操作MySQL
  • 使用Python对Access读写操作
    学习Python的过程中,我们会遇到Access的读写问题,这时我们可以利用win32.client模块的COM组件访问功能,通过ADODB操作Access的文件。 1、导入模块 import win32c...
    99+
    2022-06-04
    操作 Python Access
  • 使用Python对MySQL数据操作
    本文介绍Python3使用PyMySQL连接数据库,并实现简单的增删改查。 什么是PyMySQL? PyMySQL是Python3.x版本中用于连接MySQL服务器的一个库,Python2.x中则使用mys...
    99+
    2022-06-04
    操作 数据 Python
  • python使用pymysql实现操作mysql
    pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同。但目前pymysql支持python3.x而后者不支持3.x版本。 适用环境 python版本 >=2.6或3....
    99+
    2022-06-04
    操作 python pymysql
  • python如何使用操作符in
    这篇文章给大家分享的是有关python如何使用操作符in的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。使用操作符in##不推荐 if fruit ==&nbs...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作