Postmortem: en una PDU con bajo factor de potencia, ¿por qué se reiniciaron todos nuestros servidores?

0

Soy un Unix SysAdmin con una comprensión cruda de la electricidad.

Tuvimos este escenario: se conectaron 4 servidores de doble PSU a una PDU ServerTech Sentry Switched con PIPS con cables Y. El circuito es de 208V / 30A. La carga del circuito es inferior a 1A, por lo que son 8 unidades de suministro de energía de computadora de clase servidor que consumen alrededor de 0.1A cada una. Mi colega conectó un servidor adicional (hardware antiguo redistribuido) en la PDU. Al aprovisionar este sistema, descubrió que los cuatro sistemas ligeramente cargados se habían reiniciado.

Comenzamos a investigar. Esto es cuando encontramos que el Factor de potencia (PF) en la PDU era de 0.75 "ADVERTENCIA BAJA" ... desenchufamos la mitad de las unidades de suministro de energía del servidor y la PF mejoró en más de 0.8. Presenté un RMA con el proveedor del servidor para nuestras unidades de suministro de energía defectuosas. El proveedor nos informó entonces que PF es bajo con poca carga , y que si queremos mejorar el PF deberíamos ejecutar los sistemas con mayor carga. La ejecución de un comando stress en un servidor lleva la PDU PF a más de 0.9.

La pregunta que nos hacemos es:

  

¿Es razonable que en estas circunstancias, la conexión de un sistema adicional debería desencadenar un estado de falla de alimentación temporal en los sistemas de baja carga? O, ¿esto implica que la PDU o las PSU del servidor son defectuosas?

Lo mejor que puedo distinguir, expusimos un caso de borde para nuestras prácticas de centro de datos, y deberíamos hacer un movimiento para monitorear PDU PF, marcar cuando está bajo y tomar medidas correctivas (como carga artificial) cuando una situación como esto ocurre.

Anexo:

En la semana 29, teníamos sistemas 4x con PSU duales en el circuito, y conectamos un nuevo servidor, que es cuando los sistemas 4x se reinician. En la semana 31, desconecté la mitad de las fuentes de alimentación para corregir la advertencia de PF. Presentaré la instrumentación PF en el futuro.

    
pregunta dannyman

4 respuestas

4

pF es picofarad.

Ahora, el Factor de Poder es mal entendido ...

La tensión de red es una onda sinusoidal. Si enchufas una resistencia, como un calentador, esta generará una corriente de onda sinusoidal que está en fase con la tensión, esto significa que la corriente y la tensión son proporcionales. Esta es la situación ideal para la empresa de servicios públicos, ya que minimiza las pérdidas en cableado, transformadores y otros equipos de distribución desde el motor hasta el usuario.

Otros tipos de cargas tomarán corriente de diferentes maneras. Por ejemplo, una carga inductiva, como un enorme motor de inducción como el que se usa en maquinaria industrial o elevadores, generará una corriente de onda sinusoidal, pero tendrá un cambio de fase en relación con el voltaje. Las fuentes de alimentación de modo de conmutación más antiguas utilizadas en las computadoras contienen un rectificador seguido de condensadores, por lo que solo consumen corriente en los picos.

Ambos casos distan mucho de ser óptimos para la utilidad de energía, ya que su forma de onda actual causa mayores pérdidas en su red. Pero solo te facturan por el poder que usas, no por las pérdidas en su red. Así que querrán que pagues extra para recuperar el poder perdido.

"Factor de potencia" es una medida de un solo dígito de cómo la corriente se aleja de la onda sinusoidal ideal. No es perfecto, pero es útil.

Las fuentes de alimentación de la computadora SMPS convierten un alto voltaje de CC, como 320 VCC, en bajos voltajes, como 12V, 5V, 3.3V, etc. La tecnología actual puede hacerlo de manera muy eficiente. El problema es cómo obtener el 320VDC. Puede usar un rectificador de la red y un condensador, pero esto solo consumirá energía en los picos de tensión de la red y tendrá un factor de potencia malo.

Por lo tanto, se agrega un circuito PFC (corrección del factor de potencia). Se trata de un convertidor elevador que toma como entrada la tensión de red rectificada y genera CC de alta tensión, al tiempo que extrae la alimentación de la red eléctrica de forma sinusoidal.

Sin embargo, esto no es 100% eficiente. Si el circuito está diseñado para que tenga una eficiencia del 95% a plena carga, entonces al 10% de la carga perderá eficiencia. Es razonable esperar que el fabricante haga un compromiso y tome una pérdida en el factor de potencia para mantener la eficiencia alta. De hecho, con una carga muy baja, cuando la PC está en modo de espera y consume 0,1W, es muy probable que la corrección del factor de potencia se apague por completo, ya que sus pérdidas superarán la potencia real utilizada.

De todos modos.

El factor de potencia mide cuánto mal hace el sistema a la red y la utilidad, pero hay que recordar que es un factor. La cantidad real de armónicos y la corriente mal formada extraída de la red depende de la potencia y la corriente que realmente utiliza la carga. Por lo tanto, una carga con un factor de potencia malo, pero que utiliza poca potencia, no es un problema. El problema son las cargas que utilizan mucha corriente y tienen un factor de potencia malo.

  

¿Es razonable que en estas circunstancias, la conexión de un sistema adicional debería desencadenar un estado de falla de alimentación temporal en los sistemas de baja carga? O, ¿esto implica que la PDU o las PSU del servidor son defectuosas?

No, esto no es razonable.

Cuando conectó el sistema adicional, extrajo una corriente de irrupción de la PDU. Tal vez la corriente de irrupción fue demasiado, tal vez no, quién sabe. Si la PDU no puede lidiar con eso, es el problema de la PDU. Si corta la alimentación a las otras salidas cuando una sola salida se comporta mal, también es un problema del PDu.

Me parece que tu PDU es una mierda. Quiero decir, ¿algún otro servidor en el centro de datos, pero los de esta PDU fallaron? Probablemente no.

  

realice acciones correctivas (como carga artificial) cuando ocurra una situación como esta.

Una carga artificial (como una resistencia) consume energía. Esto aumenta el factor de potencia (al hacer que la corriente deforme que consumen sus computadoras sea más pequeña en comparación) y también aumenta su factura de electricidad. Es más ecológico simplemente donar dinero a su empresa de servicios públicos.

    
respondido por el peufeu
2

De acuerdo con los comentarios relacionados con la causa improbable de ser deficiente Factor de potencia. Mi siguiente experiencia puede ser relevante. También he realizado una investigación sobre las pruebas de estrés, que causaba fallas ocasionales en la PDU. Esta prueba de esfuerzo fue simplemente para cambiar las salidas controladas por relé de la PDU en un apagado en 6 segundos. En esta ocasión, el fallo se debió a daños en los relés de alimentación en una PDU de doble alimentación. Los contactos de los relés en cuestión están suministrando el 240vac a las salidas en la PDU que los servidores de energía smps, típicos en los racks de salas de datos. El problema fue que los contactos de estos relés se soldaban ocasionalmente cuando se conectaba la salida de la PDU cargada al operar el relé. Se encontró que los contactos de relé estaban adecuadamente especificados para hacer frente a la carga que estaban cambiando. Después de muchas preguntas, se descubrió que solo los servidores con tecnología Dell modelo N0. Los smps D1100E-SO (un artículo revisado como confiable y de buena calidad) estaban causando que los contactos se soldaran ocasionalmente. Tomé una muestra de esta fuente de alimentación a un laboratorio de EMC para verificar la corriente de entrada. En resumen, los resultados mostraron que la PSU de Dell no parecía exceder el límite Dmax del 4% y que puede cumplir con la norma EN61000-3-3. Una buena figura Dmax también puede implicar que se implementa un alto control de arranque instantáneo dentro de la fuente de alimentación. Así que no hay pista allí.  Luego hice algunas pruebas ambientales en la combinación de PSU / PDU para tratar de replicar el problema, y he aquí que las PSU solo funcionaban a una temperatura ambiental superior a aproximadamente 21 ° C. Los relés ocasionalmente se pegaban a una condición de encendido permanente. !! . Al abrir Dell psu, encontré la clásica configuración de limitador de entrada de tipo termistor en la entrada de la red. El termistor se colocó fuera de la corriente de aire del ventilador de refrigeración. En un ambiente por encima de 21 dec C, el período de prueba de tensión de ENCENDIDO - interruptor APAGADO - esperar -6 segundos - ENCENDIDO no permitió que el termistor se enfríe lo suficiente como para permitir la limitación de la corriente de entrada a un nivel aceptable - por lo tanto, se produce la soldadura por contacto. ¿Cuál es la relevancia de esto para la pregunta? Si bien este problema se reveló en condiciones de "estrés", tenga en cuenta que una alta corriente de Inrush puede introducir transitorios rápidos (parpadeo) en el suministro de la red a otros equipos, lo que posiblemente cause un reinicio del otro equipo que comparte la misma PDU. Parte de la protección Inrush más básica de los smps no siempre es eficaz para limitar este tipo de interferencia, porque como se revela aquí, la CEM. las pruebas no se dirigen a todos los senarios. Por lo tanto, es bastante posible que el "servidor adicional (redistribuido por hardware más antiguo)" que su colega enchufado tuviera poca o ninguna limitación actual de irrupción.  Espero que sea de algún valor -

    
respondido por el John
0
  • las PSU modernas tienen un alto PF con alguna calificación "Verde", es posible que su versión anterior no sea

  • el PF puede ser un indicador de otra causa raíz; conducido EMI, EMI radiado, regulación de carga

  • ya que cada PSU tiene un filtro de línea, pero puede ser sensible a las cargas de pasos o impulsos y puede producirse una sobrecarga en la conexión, por lo que, dependiendo de la impedancia de salida de la PDU, podría fallar en las cargas de pasos capacitivos

Especificaciones de PDU?

También exploraría el tiempo de subida de la corriente de irrupción en una unidad más antigua y buscaría interferencias radiadas que causen un reinicio del sistema. El alcance del ruido irradiado en la línea de restablecimiento, y examine el registro del sistema para determinar la causa del reinicio.

Es un transitorio anormal causado por el ruido de alimentación, pero ¿dónde / cómo se encendió? PF nunca debería ser un problema para el uso de baja potencia.

Otra prueba es agregar una carga ficticia (bombilla halógena 300W PF = 1) prueba transitoria on / off repetida con largos cables separados sin blindaje para crear un efecto de antena de bucle para el ruido irradiado. y también llevó a cabo corriente de sobretensión en PDU. Debería pasar esta prueba, de lo contrario tiene un problema.

Una vez que se conoce la causa raíz del fallo, la solución es fácil. Filtro, escudo, tapa de derivación en PDU, etc.

Recuerdo que hace casi 20 años en nuestra fábrica de servidores, las unidades de suministro de energía dobles compartidas por debajo de la corriente eran inestables (rizado de oscilación) sin al menos un 10% de carga en DC. Esto podría ser activado por un transitorio de corriente alterna.

    
respondido por el Tony EE rocketscientist
0

Esto realmente no me suena como un problema de PDU.

Estaría observando la impedancia de suministro medida en la entrada de esa PDU, es posible que tenga un tornillo suelto o similar (los conectores de forma Cee son conocidos por esto). Cuando conectó el servidor adicional, impuso una demanda de corriente transitoria mientras cargaba los límites de su fuente de alimentación, lo que podría haber bajado el voltaje de la línea el tiempo suficiente para provocar los reinicios. ¿Tiene un registro de la PDU que muestre alguna excursión de voltaje alrededor del momento del reinicio? Estaría buscando una gran caída de bocina que se repita en un ciclo o dos, ¿esto se refleja en otros registros de PDU?

Las fuentes de alimentación modernas para PC (sí, incluso la mayoría de los suministros de servidor) son basura con tiempos de espera muy marginales (20 ms en un BUEN día), porque hacer esto correctamente cuesta dinero y espacio.

PSC es en gran medida irrelevante con suministros ligeramente cargados, registraría corriente, kVA, kVAr, voltaje (incluyendo el registro de cualquier desviación) y me gustaría tener armónicos de corriente disponibles (si no están registrados).

Por cierto, si esos fueran mis servidores, estaría muy tentado de virtualizar el lote en una caja que luego se cargaría al menos ligeramente, mejor para la eficiencia energética, libera espacio en los racks ...

    
respondido por el Dan Mills

Lea otras preguntas en las etiquetas