Log I/Os longer than zio_delay_max (30s default)
[zfs.git] / module / zfs / zio.c
index ce76e01..bcfc081 100644 (file)
@@ -1305,18 +1305,34 @@ __zio_execute(zio_t *zio)
 int
 zio_wait(zio_t *zio)
 {
+       uint64_t timeout;
        int error;
 
        ASSERT(zio->io_stage == ZIO_STAGE_OPEN);
        ASSERT(zio->io_executor == NULL);
 
        zio->io_waiter = curthread;
+       timeout = ddi_get_lbolt() + (zio_delay_max / MILLISEC * hz);
 
        __zio_execute(zio);
 
        mutex_enter(&zio->io_lock);
-       while (zio->io_executor != NULL)
-               cv_wait(&zio->io_cv, &zio->io_lock);
+       while (zio->io_executor != NULL) {
+               /*
+                * Wake up periodically to prevent the kernel from complaining
+                * about a blocked task.  However, check zio_delay_max to see
+                * if the I/O has exceeded the timeout and post an ereport.
+                */
+               cv_timedwait_interruptible(&zio->io_cv, &zio->io_lock,
+                   ddi_get_lbolt() + hz);
+
+               if (timeout && (ddi_get_lbolt() > timeout)) {
+                       zio->io_delay = zio_delay_max;
+                       zfs_ereport_post(FM_EREPORT_ZFS_DELAY,
+                           zio->io_spa, zio->io_vd, zio, 0, 0);
+                       timeout = 0;
+               }
+       }
        mutex_exit(&zio->io_lock);
 
        error = zio->io_error;
@@ -2438,25 +2454,19 @@ zio_vdev_io_start(zio_t *zio)
 
        align = 1ULL << vd->vdev_top->vdev_ashift;
 
-       /*
-        * On Linux, we don't care about read alignment. The backing block
-        * device driver will take care of that for us.
-        * The only exception is raidz, which needs a full block for parity.
-        */
-       if (P2PHASE(zio->io_size, align) != 0 &&
-           (zio->io_type != ZIO_TYPE_READ ||
-            vd->vdev_ops == &vdev_raidz_ops)) {
+       if (P2PHASE(zio->io_size, align) != 0) {
                uint64_t asize = P2ROUNDUP(zio->io_size, align);
                char *abuf = zio_buf_alloc(asize);
+               ASSERT(vd == vd->vdev_top);
                if (zio->io_type == ZIO_TYPE_WRITE) {
                        bcopy(zio->io_data, abuf, zio->io_size);
                        bzero(abuf + zio->io_size, asize - zio->io_size);
                }
                zio_push_transform(zio, abuf, asize, asize, zio_subblock);
-               ASSERT(P2PHASE(zio->io_size, align) == 0);
        }
 
        ASSERT(P2PHASE(zio->io_offset, align) == 0);
+       ASSERT(P2PHASE(zio->io_size, align) == 0);
        VERIFY(zio->io_type != ZIO_TYPE_WRITE || spa_writeable(spa));
 
        /*
@@ -2895,15 +2905,11 @@ zio_done(zio_t *zio)
        vdev_stat_update(zio, zio->io_size);
 
        /*
-        * If this I/O is attached to a particular vdev is slow, exeeding
-        * 30 seconds to complete, post an error described the I/O delay.
-        * We ignore these errors if the device is currently unavailable.
+        * When an I/O completes but was slow post an ereport.
         */
-       if (zio->io_delay >= zio_delay_max) {
-               if (zio->io_vd != NULL && !vdev_is_dead(zio->io_vd))
-                       zfs_ereport_post(FM_EREPORT_ZFS_DELAY, zio->io_spa,
-                                         zio->io_vd, zio, 0, 0);
-       }
+       if (zio->io_delay >= zio_delay_max)
+               zfs_ereport_post(FM_EREPORT_ZFS_DELAY, zio->io_spa,
+                   zio->io_vd, zio, 0, 0);
 
        if (zio->io_error) {
                /*