Illumos #2619 and #2747
[zfs.git] / module / zfs / zio.c
index bcfc081..66f228b 100644 (file)
@@ -704,7 +704,7 @@ zio_write(zio_t *pio, spa_t *spa, uint64_t txg, blkptr_t *bp,
            zp->zp_checksum < ZIO_CHECKSUM_FUNCTIONS &&
            zp->zp_compress >= ZIO_COMPRESS_OFF &&
            zp->zp_compress < ZIO_COMPRESS_FUNCTIONS &&
-           zp->zp_type < DMU_OT_NUMTYPES &&
+           DMU_OT_IS_VALID(zp->zp_type) &&
            zp->zp_level < 32 &&
            zp->zp_copies > 0 &&
            zp->zp_copies <= spa_max_replication(spa) &&
@@ -988,7 +988,7 @@ zio_read_bp_init(zio_t *zio)
                zio_push_transform(zio, cbuf, psize, psize, zio_decompress);
        }
 
-       if (!dmu_ot[BP_GET_TYPE(bp)].ot_metadata && BP_GET_LEVEL(bp) == 0)
+       if (!DMU_OT_IS_METADATA(BP_GET_TYPE(bp)) && BP_GET_LEVEL(bp) == 0)
                zio->io_flags |= ZIO_FLAG_DONT_CACHE;
 
        if (BP_GET_TYPE(bp) == DMU_OT_DDT_ZAP)
@@ -1305,34 +1305,18 @@ __zio_execute(zio_t *zio)
 int
 zio_wait(zio_t *zio)
 {
-       uint64_t timeout;
        int error;
 
        ASSERT(zio->io_stage == ZIO_STAGE_OPEN);
        ASSERT(zio->io_executor == NULL);
 
        zio->io_waiter = curthread;
-       timeout = ddi_get_lbolt() + (zio_delay_max / MILLISEC * hz);
 
        __zio_execute(zio);
 
        mutex_enter(&zio->io_lock);
-       while (zio->io_executor != NULL) {
-               /*
-                * Wake up periodically to prevent the kernel from complaining
-                * about a blocked task.  However, check zio_delay_max to see
-                * if the I/O has exceeded the timeout and post an ereport.
-                */
-               cv_timedwait_interruptible(&zio->io_cv, &zio->io_lock,
-                   ddi_get_lbolt() + hz);
-
-               if (timeout && (ddi_get_lbolt() > timeout)) {
-                       zio->io_delay = zio_delay_max;
-                       zfs_ereport_post(FM_EREPORT_ZFS_DELAY,
-                           zio->io_spa, zio->io_vd, zio, 0, 0);
-                       timeout = 0;
-               }
-       }
+       while (zio->io_executor != NULL)
+               cv_wait_io(&zio->io_cv, &zio->io_lock);
        mutex_exit(&zio->io_lock);
 
        error = zio->io_error;
@@ -2905,11 +2889,15 @@ zio_done(zio_t *zio)
        vdev_stat_update(zio, zio->io_size);
 
        /*
-        * When an I/O completes but was slow post an ereport.
+        * If this I/O is attached to a particular vdev is slow, exeeding
+        * 30 seconds to complete, post an error described the I/O delay.
+        * We ignore these errors if the device is currently unavailable.
         */
-       if (zio->io_delay >= zio_delay_max)
-               zfs_ereport_post(FM_EREPORT_ZFS_DELAY, zio->io_spa,
-                   zio->io_vd, zio, 0, 0);
+       if (zio->io_delay >= zio_delay_max) {
+               if (zio->io_vd != NULL && !vdev_is_dead(zio->io_vd))
+                       zfs_ereport_post(FM_EREPORT_ZFS_DELAY, zio->io_spa,
+                                         zio->io_vd, zio, 0, 0);
+       }
 
        if (zio->io_error) {
                /*
@@ -3143,6 +3131,48 @@ static zio_pipe_stage_t *zio_pipeline[] = {
        zio_done
 };
 
+/* dnp is the dnode for zb1->zb_object */
+boolean_t
+zbookmark_is_before(const dnode_phys_t *dnp, const zbookmark_t *zb1,
+    const zbookmark_t *zb2)
+{
+       uint64_t zb1nextL0, zb2thisobj;
+
+       ASSERT(zb1->zb_objset == zb2->zb_objset);
+       ASSERT(zb2->zb_level == 0);
+
+       /*
+        * A bookmark in the deadlist is considered to be after
+        * everything else.
+        */
+       if (zb2->zb_object == DMU_DEADLIST_OBJECT)
+               return (B_TRUE);
+
+       /* The objset_phys_t isn't before anything. */
+       if (dnp == NULL)
+               return (B_FALSE);
+
+       zb1nextL0 = (zb1->zb_blkid + 1) <<
+           ((zb1->zb_level) * (dnp->dn_indblkshift - SPA_BLKPTRSHIFT));
+
+       zb2thisobj = zb2->zb_object ? zb2->zb_object :
+           zb2->zb_blkid << (DNODE_BLOCK_SHIFT - DNODE_SHIFT);
+
+       if (zb1->zb_object == DMU_META_DNODE_OBJECT) {
+               uint64_t nextobj = zb1nextL0 *
+                   (dnp->dn_datablkszsec << SPA_MINBLOCKSHIFT) >> DNODE_SHIFT;
+               return (nextobj <= zb2thisobj);
+       }
+
+       if (zb1->zb_object < zb2thisobj)
+               return (B_TRUE);
+       if (zb1->zb_object > zb2thisobj)
+               return (B_FALSE);
+       if (zb2->zb_object == DMU_META_DNODE_OBJECT)
+               return (B_FALSE);
+       return (zb1nextL0 <= zb2->zb_blkid);
+}
+
 #if defined(_KERNEL) && defined(HAVE_SPL)
 /* Fault injection */
 EXPORT_SYMBOL(zio_injection_enabled);